日本語の文字とバイト数 1バイト ASCIIの全て(実装系によりJIS X 0201/Windows-31Jの当該エリアの場合あり) 2バイト JIS X 0208の非漢字の一部 3バイト JIS X 0201の8ビット文字(半角カタカナ) JIS X 0208の漢字エリアの全て JIS X 0212の漢字エリアの全て JIS X 0213の第3・4水準漢字の一部 Windows-31Jの拡張文字エリア全て 4バイト UnicodeのBMP以外全て JIS X 0213の第3・4水準漢字の一部 5~6バイト Unicodeの範囲外(どんな文字が登録されるかという計画も無い)
日本語環境でのUnicodeの諸問題
YEN SIGN問題 Shift_JISではJIS X 0201における円記号 "\" が0x5Cに置かれている。これをUnicodeのマッピングに合わせるとYEN SIGN (U+00A5) にマップされる。しかし、0x5CはASCIIではバックスラッシュ "\" に相当し、C言語などのエスケープシーケンスに使われる事から、この文字のコードを変更すると問題が起きる。そのためUnicodeを利用するアプリケーションはU+007F以下のコードに関しては移動させないという暗黙のルールができている。