Unicode

 IBM,Microsoft,Apple,DEC,HP などの企業が協調して作られた,国際的な文字コード。 日中韓統合漢字セットを含む主な国の文字セットを収録している。 1文字を2バイトで表す。 OS がサポートしていれば,ソフトの他言語対応の手間が大幅に軽減できるという利点があると言われた。 また,これで作られたテキストファイルは世界共通となる予定であった。
 問題点は,世界中の文字が2バイトでは扱えないことにある。 これをもとにして作られた,文字コードの規格に ISO-10646 がある。
 Unicode の表現として必ず2バイトで表わす方法と,1〜3バイトの可変長のコード(UTF)で表わす方法がある。



Universal Multiple-Octet Coded Character Set(UCS)

 ISO が策定した国際文字コード(ISO/IEC 10646-1)。 32 bit の UCS4(実装例なし)と 16bit の UCS2 があり,UCS2 は実質的に Unicode そのものである。

 UCS4 は,2002年の時点で標準化された規格でもっとも多くの漢字を集めている。 日本工業規格(JIS X 0221-1995)としても採用され, Unicode の約20,000の漢字が収められている。 国際規格(かつ JIS 規格)だから,いずれは HTML ブラウザやその他のアプリケーションも対応することが期待される。



ISO-10646

 本来は4バイトコードであるが(これを UCS4 と呼ぶ), 慣用的に 0 面(これを基本多言語面 BMP と呼ぶ)のみを使った2バイトコード(これを UCS2と呼ぶ)。 これを使うことも許される。 この UCS2 と Unicode は当初同じ物であった。



UCS Transformation Format,Unicode Transformation Format(UTF)

 Unicode を byte 列に変換する方式。 Unicode を 7 bit 文字などと共存可能なように工夫した文字コードのエンコーディング方法。



8-bit UCS Transformation Format(UTF-8)

 Unicode を byte 列に変挨する方式。 UTF-8 は、1文字を 1〜3 byte の可変長の 8 bitコードに変換する。 Java や VRML、次期バージョンの HTML などで使用される。


UTF-8 TeraTerm Pro with TTSSH2 4.56
 2007年12月4日公開。



Unification

 Unicode で中国語でも日本語でも,同一とみなしうる漢字には同じコードを割り当てること。



戻る 
英語『U』最初のメニュー