文字コードと文化と言語

UTF8がデフォのほうがましですね。最近はクロスプラットフォームを考慮してソース等はすべてUTF8で扱うことが多いですから。

日本語環境悪化か - しんさんの出張所 はてな編

実は自分の作ったMaven2プロジェクトはUTF-8を指定しているか日本語を使っていないものばかりなので、自分は当事者ではないのだけど。

http://nekop.programmers.jp/diary/?date=20080428

僕が日本にいた頃は、専らVisual C++とかJavaソースコードといえばShift JISで書くのが普通だった。WindowsではShift JIS、Unix上はEUCという棲み分けができていたから、cvsのEOL処理と同様に文字コードをコンバートしてリポジトリに保管するためのパッチが書かれていたりした(そうしないと両方で編集できない)。Unicodeはあったはずだが、普及していなかった。ツールの問題なのか単に互換性の問題なのかはよくわからない。


Seasar2ソースコードUTF-8だという指摘や、id:shinさんによる指摘は、なので僕には新鮮である。そうなのか、最近の日本語圏のソースコードUTF-8で書かれているのか...。それは正直、知らんかった。ひょっとしてNetBeansEclipseも標準エンコーディングUTF-8で出荷されていたりするのかな!?

オープンソースが普及すればするほど日本語などマルチバイトの環境がよくなるどころか、おいていかれるのが加速するでしょう。たとえば10年前は日本語問題で苦労することは少なかったのではないでしょうか。

日本語環境悪化か - しんさんの出張所 はてな編

僕の記憶では、10年前も同じようにひどかったと思う。英語圏で書かれたASCII/iso-8859-1圏向けソフトウェアはかなり手を入れないと使えなかったし(e.g.,「表」問題)、今もそうかもしれないけど、日本国内だけで3つのエンコーディングが使われていた。高校生の時に書いていたSmart Viewというエディタにもエンコーディングを自動検出するコードを書いた記憶がある。それに比べると、Unicodeが普及したり、Javaや.NETが元からUnicodeを前提にしてくれたおかげで、今の方がよくなっていると感じる。


一つ実感として指摘したいのは、いかにこっちのオープンソースコミュニティにとって日本語圏が空気のような存在であるか、ということである。一つには開発に関与している人が少ないということもあるが、それ以上に大きいのは、ユーザーの人達の姿が見えないという事。だってみんな英語のメーリングリストにはポストしないんだもん。だから、結果として色んなところで簡単にないがしろにされてしまうわけである。


下の絵は知合いのアメリカ在住のロシア人(?)が書いた、彼の頭の中での世界中のJava開発者の分布図。華麗に日本がスルーされているのを見てほしい。英語を除いて唯一Javadocローカライズされている国なのに。





これがいかんとか、みんな英語を勉強しろとか、そういう話がしたいのではなくて、言語と文化というのは大きなバリアを生みますね、という話。