top of page
ナビ用背景.png

文字のデジタル化
​について

コンピュータの世界では、文字・数字・記号・音声・画像・動画などの情報はデジタル化された「0」と「1」で表されています。

 
デジタル化された文字や記号を2進数でどのように表すか決めたものを「文字コード」といいます。

例えば「A」という一文字は、JISコードでは (0100 0001)₂ で表現されます。2進数で表現するのが正しいです…が、2進数だと桁が大きくなってしまうので、16進数に置き換えることもあるそうです。

Unicodeの歴史について大まかにまとめると、1963年にアメリカでASCIIという文字コードが標準化されました。ASCII(American Standard Code for Information Interchange )コードは最初、文字を7桁の2進数(7ビット=2⁷=128文字)で半角英数字や記号を表していたそうです。

このASCIIコードは世界共通で使用されましたが、他の国や地域の文字は128通りでは足りません。残りの1ビット(8番目のビット)で間違いを検出するparityビットを加え、1バイト(=8ビット)の文字コードも開発されましたが、他の国や地域の文字はそれでも足りませんでした。

そこで、世界の各メーカーが独自の文字コードを開発することになり、1バイトではなく、2バイト(16ビット)で表現する文字コードが開発され、2¹⁶(=65536通り)の表現ができるようになりました。

しかし、世界各地で開発された独自の文字コードは、グローバル化が進むにつれ互換性の問題が発生し、事が進まないという状況になってしまいました。そこで、Unicodeコンソーシアム(Unicode協会)が「世界で使われているすべての文字を利用できるようにしよう」として策定した規格が「Unicode」になります。Unicodeは符号化文字集合のひとつです。

符号化文字集合とは、文字に対して、ユニークの符号に置き換えた集合体です。この集合体には、ASCII、JISX0208、Unicodeなどがあります。

文字符号化方式とは、ユニークの符号に対して、コンピュータが読み込めるように特定のビット列に置き換える方式のことです。文字符号化方式には、ISO – 2022 – JP、シフトJIS、EUC – JP、UTF – 8、UTF – 16、UTF – 32 などがあります。

・・ということは、『文字コード』の中に「符号化文字集合」と「文字符号化方式」が含まれているイメージですね。

文字コード_イメージ図.jpg

日本産業規格で定めた「JIS(Japanese Industrial Standards)コード」という符号化方式(エンコード方式)は、通称「ISO – 2022 – JP」と呼ばれ、半角英数や半角カタカナを1バイト(8ビット)で表現、インターネットや電子メールなどで使用されています。

日本産業規格で定めた「シフトJISコード」という符号化方式(エンコード方式)は、Microsoft社によって定められ、2バイト=2¹⁶=65536通りの表現ができます。エスケープシーケンスは用いられていません。

「EUC(Extended Unix Code)-JP」という符号化方式(エンコード方式)は、UNIX上で日本語や中国、韓国など、さまざまな国で扱うことができるマルチバイト文字に対応しています。

「UTF−16」という符号化方式(エンコード方式)は、符号化文字集合のUnicodeに対応した文字符号化方式のコード体系のひとつです。基本的に2バイト(16ビット)の可変長マルチバイトで文字を表現しますが、文字によって4バイト使用することもあります。また、ASCIIとの互換性はありません。

​どうして文字化けが起きるのか、それには様々な原因があります。
​その一つである「文字のデジタル化」に関する文字化けの原因を調べましょう。
例えば、こんなふうに。

© 2023 The Book Lover Wix.comを使って作成されました

bottom of page