Jul
14
2006

PCとインターネットでポルトガル語を使う方法 - 第3回−2

Author : Mango | 2006.07.14

第3回−1から引き続き

日本語PC環境でのポルトガル語データのファイル入出力」についてです。

さてここで、文字化けや文字の置き換え(保存不能)が起こるケースを整理してみましょう。凡そ以下の2つに集約されると思います。(集約されなくても、ここはそーゆーことにしておきます)

・ファイル保存時

 文中に含まれる文字が、保存時に指定した文字コードに存在しない場合。

 

・ファイル読み込み時

 アプリケーションが想定している文字コードと、読み込むファイルの

 文字コードが一致していない場合。

随分と前置きが長くなりましたが、ここからが具体的な方法です。

上記2ケースへの対処法です





・ファイル保存時の対処法

 このケースは更に2つの状況が考えられます。

 a) ポルトガル語のみの文章を保存する

 b) 日本語・ポルトガル語が混在する文章を保存する

a)、b)どちらもそれぞれのケースに適合した文字コードを指定して保存すればOKです。

a)の場合:"Latin-1(ISO 8859-1)"または"Unicode(utf-8)"という規格の文字コードで保存します。

 

b)の場合:"Unicode(utf-8)"という規格の文字コードで保存します。

"Latin-1(ISO 8859-1)"はヨーロッパの言語で使われる文字コードの一つです。ポルトガル語以外に英語、ドイツ語、フランス語、イタリア語、スペイン語など主要な西ヨーロッパ言語をカバーしていますので、これらの言語を混在させることも可能です。これなら使えそうでしょ?>>*cherubim*さん

"Unicode(utf-8)"は全ての文字を1つの文字コード体系で表現し、多国語処理を可能にしようとするものです。一つのファイルにあらゆる言語を混在させることが可能です。※1

文字コードを指定して保存/秀丸エディタの場合

実際に文字コードを"Latin-1(ISO 8859-1)"と指定して、ファイルを保存してみます。"Shift-JIS"で保存した時と同様、「ファイル」→「名前をつけて保存」です。

「名前をつけて保存」ダイアログが現れますので"エンコードの種類"ドロップダウンリストの右側▼をクリックします。すると文字コードの一覧がズラッと出てきます。

文字コードを指定して保存(hide)1

秀丸エディタの場合、"Latin-1(ISO 8859-1)"は"欧文"と表記されていますから、これを選択して「保存」ボタンをクリック。

文字コードを指定して保存(hide)2

保存したファイルのファイル名横に、以上の手順で指定した文字コードが表示され、正常に保存された事が確認できます。アクセント記号も消えていません。

\( ̄▽ ̄)/ バンザーイ

文字コードを指定して保存(hide)3

以下はUnicode(utf-8)の手順です。操作は一緒なので説明は省略します。

文字コードを指定して保存(hide)4



文字コードを指定して保存(hide)5



文字コードを指定して保存(hide)6



文字コードを指定して保存/EmEditorの場合

EmEditorでも"Latin-1(ISO 8859-1)"でファイルを保存してみます。こちらも"Shift-JIS"で保存した時と同様、「ファイル」→「名前をつけて保存」です。

「名前をつけて保存」ダイアログが現れますので"エンコード"ドロップダウンリストの右側▼をクリックします。やはりズラリと出てきます。

文字コードを指定して保存(EmEditor)1

EmEditorエディタの場合、"Latin-1(ISO 8859-1)"は"西ヨーロッパ言語(1252 iso-8859-1)"と表記されています。これを選択して「保存」ボタンをクリック。

文字コードを指定して保存(EmEditor)2

ウインドウの右下に、以上の手順で指定した文字コードが表示され、正常に保存された事が確認できます。アクセント記号もバッチリくっついています。

バンザーイ \( ̄▽ ̄)/ バンザーイ

文字コードを指定して保存(EmEditor)3

EmEditorでUnicode(utf-8)を指定する手順です。秀丸エディタの時と同様説明は省略します。

文字コードを指定して保存(EmEditor)4



文字コードを指定して保存(EmEditor)5



文字コードを指定して保存(EmEditor)6

またまた画質が荒くて申し訳ありません。このサイズに収めるのに結構手間がかかってしまって・・・。

以上で、ポルトガル語ファイルの保存は終了です。




・ファイル読み込み時の対処法

 アプリケーションが想定している文字コードと、読み込むファイルの

 文字コードが一致していない場合。

これは、例えば

「アプリケーション側は文字コードを"Shift-JIS"で開こうとしているのに、そのファイルは"Latin-1(ISO 8859-1)"で保存されている」

といったケースです。

これに対処する方法はただ一つ。

保存した時の文字コードでファイルを開くということです。

(当たり前ですよね・・・・オチがなくてスミマセン)

当然"Latin-1(ISO 8859-1)"や"Unicode(utf-8)"を扱えないアプリケーションで読み込むことは出来ません。アプリケーションを選択する時、対応する文字コードをよく吟味する必要があるでしょう。

この辺りは各アプリケーションにより、細かい設定値が用意されており、その上いろいろとクセがあるので、ここでいちいち取り上げるのは無理があります。ご自身でお使いのアプリケーションについては、ヘルプファイルやヘビーユーザの集まるフォーラムなどを参考にして頂きたいと思います。

一例を挙げると、大抵のエディタに

「ファイル読み込みに標準で使用する文字コード」とか

「文字コードを自動判別するか否か」

といった設定項目があると思います。これはファイルの文字コードを自動的に認識させ、読み込み時の文字化けを回避しようとする機能です。上手く機能すればファイルを開くたびにコードの指定をしなくて良いので便利です。また

「HTML/XMLのCharset記述から判別する」※2

といった機能もあります。

秀丸エディタは文字コードの自動判別が少々弱いようで、判別出来なかった時、どのような処理をするかといった設定項目も別途用意されています。

実際、秀丸エディタはポルトガル語を含んだ"Unicode(utf-8)"と"Shift-JIS"が判別できませんでした。EmEditorは今のところ正確に判別してくれています。※3

何にせよ、やるべきことは

「保存した時の文字コードでファイルを開く」だけです。

「自動認識が失敗したら、文字コードを変えて再読み込みすれば良い」と割り切ってしまうのもありです。少々煩わしいかもしれませんが、設定の手間もかかりませんし一番確実です。

文字コードをを変更して再読み込み/秀丸エディタの場合

文字コードを指定して再読み込み(hide)1



文字コードをを変更して再読み込み/EmEditorの場合

文字コードを指定して再読み込み(EmEditor)2



※1 MS-Wordの保存形式がこの"Unicode(utf-8)"を採用しています。従って、ポルトガル語文章であろうが、日本語が混在していようが関係ありません。データの汎用性を求めず(印刷だけを目的とする場合など)、動作の重さ、煩雑さが気にならないという方はMS-Wordを使ったほうが気が楽かもしれませんね。



※2 これはWebページ作成に重宝すると思います。詳細は「インターネット(HP、ブログ)でポルトガル語の使用」で取り上げる予定です



※3 どのエディタにおいても自動判別は絶対的なものではありません。ファイルに含まれる文字によっては、正常に作動しない可能性が常にあります。

追記:

第1回の投稿後、エディタは"TeraPad"を使っているとふぁびおさんからコメントを頂きました。そこで、今回"TeraPad"(Version0.89a)も試してみました。

結果は・・・、

残念ながらポルトガル語で使用することは出来ないようです。

外部ツールが豊富に揃っているので、回避策はあるのかもしれませんが・・・

ざっと調べた限りでは見つけることが出来ませんでした。

・まず第2回に書いた方法でIMEをポルトガル語に切り替えます。

・次にアクセント記号を打ってみると、カーソルがEOFマークの

 中に飛んでしまいます。これは第1回の記事で除外したMKEditor

 と同じ動作です。

・また、対応している文字コードが"Shift-JIS"、"JIS"、"EUC"

 "Unicode"の4種類だけですので、"Latin-1(ISO 8859-1)"の

 ファイルは文字化けします。

・更に不思議なことに"Unicode"で保存されたアクセント記号も表示され

 ませんでした。

ふぁびおさん、新しいツールを覚えるのは骨の折れる作業かもしれませんが、ポルトガル語(またそれ以外の言語)に対応するエディタの導入を検討されてはいかがでしょうか?

次回は

3、インターネット(HP、ブログ)でポルトガル語の使用

を予定しています。

だんだん行き詰ってきましたが、もうちょっとだけがんばりまーす。

(~Д~;) フゥエエエ

←「PCとインターネットでポルトガル語を使う方法 - 第3回−1」に戻る
「PCとインターネットでポルトガル語を使う方法 - 第4回」→

関連記事 / Textos Relacionados

同じカテゴリの記事 / Textos da mesma Categoria

トラックバックURL / Trackback URL

このエントリーのトラックバックURL:
http://www.esterchan.com/mt/mt-tb.cgi/301

コメント / Comentário[2]

今度、仕事でポルトガル語のサイトを制作することになったので、次回ぜひ楽しみにしています!!

基本的なことがあまりわかってないので、Mangoさんの記事は大変役にたっています。

これからも、いろいろ教えていただけまと嬉しいです^^

今回はアプリケーションが絡み、まとまりがなくなってしまったのでちょっと反省です。

文字コードの話だけにしとけば良かった・・・。

でもスクリーンショット撮っちゃったから止めるに止められず。。

次回はたぶん

「charset」と「文字コード」、あとは「文字実体参照」について書くことになると思います。

僕もあまり詳しい分野じゃないので、どのようにまとめようか、正直かなり悩んでます。

コメントする / Enviar Comentário