UTF-8
出自Gentoo Linux Wiki
Unicode是一种由国际组织设计的编码字符集,可以容纳全世界所有语言文字。Unicode为每个字符分配了一个对应的整数,但并没有明确说明其编码方式。Unicode常见的编码方式包括UCS-2、UCS-4和UTF-8。
UCS是"Unicode Character Set"的缩写。UCS-2以两个字节表示一个字符,只涵盖了Unicode字符集最常见的一部分。UCS-4以四个字节表示一个字符,涵盖了全部Unicode字符集。
事实上最常用的编码方式UTF-8则是可变长度字符编码,它也可以用来表示Unicode标准中的任何字符,而且其编码中的第一个字节仍与ASCII相容,使得原来处理ASCII字符的软件无需或只作少部份修改后,便可继续使用。因此,它逐渐成为电子邮件、网页及其他储存或传送文字的应用中,优先采用的编码。
UTF-8使用一至四个字节为每个字符编码:
- 128个ASCII字符只需一个字节编码(Unicode范围由U+0000至U+007F)。
- 带有变音符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及它拿字母则需要两个字节编码(Unicode范围由U+0080至U+07FF)。
- 其他基本多文种平面(BMP)中的字符(这包含了大部分常用字)使用三个字节编码。
- 其他极少使用的Unicode辅助平面的字符使用四字节编码。
