解決済

日本語と英語が混ざっている状態で大文字を小文字に置換すると化けます

フォームから、内容を入力してもらって、
&jcode3::convert(*aaa,'sjis');
して、
$aaa =~ s/[A-Z]/\L$&/g;
print $aaa;
したところ(ソースはこんな感じだった気がする)、
見事日本語の漢字が文字化けしました。
で、
jcode::convert(*aaa,'euc');
でやるとうまくいきます。

でもSJISでやりたいのですが、どうしたらいいでしょうか。

2006-07-04 16:03の質問
Perl  cgi  ティムバーナーズリー  パール  木ねじ  スィージーアイ    シージーアイ  
CGI
CGI の情報はこちらです
www.cgiboy.com/
この質問と回答を読んで役に立った場合は「役に立つ質問」に投票してください。投票が多い質問は、役に立つ質問一覧に掲載され、より多くの人に見てもらうことができます。
Ads By Google

回答(1)

1.

2006-07-05 15:42:30みんなナイスな
EUCネイティブな環境で全角SJISを[A-Z]で検索すると、
全角文字(2byte)の中の1byteが[A-Z]に該当して、
変換されてしまいます。

対処方法は以下の2通りが考えられます。
・urldecodeする前に小文字に変換する。
・eucにconvertした状態で小文字に変換してから、
 再度sjisにconvertする。
 (※第3水準や絵文字記号等sjisにしかない文字がロストする)
Ads By Google

コメント(8)

2006-07-05 05:30:27

文字化けとは関係ないですが、大文字を小文字にするなら、

$aaa = ~tr/A-Z/a-z/;
の方がいいと思います。1文字マッチで、マッチ情報全体を参照して大文字に、というのは大げさすぎますw

ご質問の記述からすると、Perlは5系で、jcode.plでしょうか?これらのバージョンと入力された文字コード+できれば化けた文字列を書いて頂いた方がいいかもしれません。
Perlの場合、環境にもよりますが、他にJcode.pm/Encode.pmなど変換の選択肢はあります。

#ブラウザで出力を確認していると思いますが、ブラウザがeucになってる(HTMLで文字コードを指定していない)とか、ないですよね?

#2.  NIPO
2006-07-05 16:12:45

>>#1
いや~、Perlも始めたばっかりでよくわからないんです・・・
ただ、結構あいまいに書いても動くので・・・

Perlは、5.何番かです。
jcode.plを使っています。
化けた文字は「天気」です。
ブラウザのエンコードは絶対におかしくありません。
で、送信したのは、「SJIS」、
Perlのコードも「SJIS」で作ってあります。

2006-07-05 17:54:29

なるほど、問題点が見えましたw
>>#2
あのですね・・・SJISで送信したものをSJISで出力するのに、変換する必要がなぜあるのでしょう?
ブラウザ側で送信する前に小文字に変換;
document.form1.name1.value=document.form1.name1.value.toUpperCase();
すれば、それでいい話だと思いますが。。。

Perl内でどうしてもやるなら、ひみつさんの回答1の方法か、単純に

$aaa=uc($aaa);
でいい気がします。uc(UpperCase)は今のPerlならたぶん大丈夫です。

他の正規表現を使うような処理をするのなら、eucにした方が無難です。スクリプト自身もeucにすべきです。utf8にするという選択肢はアリだと思いますが。

Perlのバージョンは、まさか、今更4系はないと思いますので、6系がまだ普及していないことを考えると、5系なのはわかっているのですが、5.8を境に微妙に違うので聞いてみましたが、たぶん、そういう問題ではなかったようです。

2006-07-05 17:57:48

>>#3
ちょっと補足:
「eucに」、というのは「プログラム中での文字コードは」という意味です。SJISにするなら、出力する直前に、ということ。

#5.  ひみつ
2006-07-05 18:40:12

CGIとして動かすスクリプトの文字コードは、
動かす環境の文字コードに合わせるべきです。

ほとんどのLinux/Unix系OSではEUCが使われており、
このような環境であればEUCで記述されるべきです。
環境構築時にUTF8を選択していればUTF8にするべきです。

ただし、一部のftpソフトが文字コード変換機能を
持つことも考慮してよいとおもいます。

ShiftJISの天気は16進数表示で
93 56 8B 43の4バイトになりますが、
56はV、43はCのASCIIコードに該当するため、
ShiftJISのままでは置換できません。

2006-07-06 00:26:23

>>#3
の記述ミスりました。大文字にしてしまいました><
document.form1.name1.value=document.form1.name1.value.toLowerCase();
で、
$aaa=lc($aaa);
の間違いです。失礼しました。

今後のことを考えるなら、
#フォームデータを受け取る
#受け取ったものを全てeucに変換
#・・・目的の処理
#SJISに変換して出力
の手順で書く癖をつけた方がいいかもしれません。

#7.  ひみつ
2006-07-06 12:47:55

第3水準以上の文字が多発するフォームや、
携帯のような絵文字に対応する必要のあるケースでは、
EUC変換することによって文字が化けたり消失したりするので
気をつけてください。

#8.  NIPO
2006-07-06 16:16:14

そうか!JavaScriptという手があったか!!
でも、ブラウザによってはできないかもしれない・・・

eucでやることにしました。

トラックバック

トラックバックURL: