字节、比特、字符集、字符传输方案 | ASCII 码表

字节、比特、字符集、字符传输方案 | ASCII 码表

ASCII(American Standard Code for Information Interchange)

表语英语及西欧语言。范围从从 00 到 7F,扩展从 00 到 FF。

标准 ASCII 码

标准 ASCII 码也叫基础 ASCII 码,使用 7 二进制数(剩下的 1 位二进制为 0)表示字符。用一个字节表示一个字符。

扩展 ASCII 码

扩展 ASCII 码允许将每个字符的第 8 位用于确定附加的 128 个特殊符号字符、外来语字母和图形符号。

ISO-8859-1

ISO-8859-1 编码是单字节编码,8 位,向下兼容 ASCII,其编码范围是 0x00-0xFF。其中,0x00-0x7F 之间和 ASCII 完全一致,0x80-0x9F 之间是控制字符,0xA0-0xFF 之间是文字符号。Latin-1 是 ISO-8859-1 的别名。

Unicode(Universal Multiple-Octet Coded Character Set)

历史上有两个独立的、创立统一字符集的尝试:一个是国际标准化组织(ISO)的 ISO 10646 项目,另一个是由(一开始大多是美国的)多语言软件制造商组成的协会组织的 Unicode 项目。幸运的是,1991 年前后,两个项目的参与者都认识到,世界不需要两个不同的统一的字符集。它们合并双方的工作成果,并为创立一个单一编码表协同工作。两个项目仍都存在并独立地公布各自的标准,但 Unicode 协会和 ISO/IEC JTC1/SC2 都同意保持 Unicode 和 ISO 10646 标准的码表兼容,并紧密地共同调整任何未来的扩展。

Unicode 为世界 650 种语言进行统一编码,其用 2 个字节表示一个字符,并且兼容 ISO-8859-1。对于已经在 ASCII 中定义的字符,在 Unicode 编码下,只需在前补 0 即可。

UCS(Unicode Character Set)

国际标准 ISO 10646 定义的通用字符集 (Universal Character Set)。它是与 Unicode 同类的组织,UCS-2 和 Unicode 兼容。目前,UCS-4 只是在 UCS-2 前面加了0×0000。

UCS-2

UCS-2 用 2 个字节编码,有 2^16 = 65536 个码位。

UCS-4

UCS-4 用 4 个字节(实际上只用了31位,最高位必须为0)编码,有 2^31 = 2147483648 个码位。

GB2312

GB2312(信息交换用汉字编码字符集)是由中国国家标准总局 1980 年发布,1981 年 5 月 1 日开始实施的一套国家标准,标准号是 GB2312—1980。使用 2 个字节表示 7445 个符号,包括6763个汉字,兼容 ASCII。范围:高字节从 A1 到 F7, 低字节从 A1 到 FE。将高字节和低字节分别加上 0XA0 即可得到编码。

GBK

GBK(汉字内码扩展规范)是中华人民共和国全国信息技术标准化技术委员会 1995 年 12 月 1 日制订,国家技术监督局标准化司、电子工业部科技与质量监督司 1995 年 12 月 15 日联合以技监标函 1995 229 号文件的形式,将它确定为技术规范指导性文件。它是 GB2312 的扩展,加入对繁体字的支持,兼容 GB2312。

GB18030

GB18030 中的代码单元由 8 位组成;在 GB18030 中,因为代码单元较小的缘故,每个代码点常常被映射到多个代码单元。代码点将被映射到一个、两个或四个代码单元。它解决了中文、日文、朝鲜语等的编码,兼容 GBK。

相关推荐

军棋怎么算赢?军棋的玩法和翻棋规则详解
【九阴下载】安卓版|苹果版|电脑版免费下载
上海戏剧学院2025年《(第四期)微短剧编剧进修班》招生简章
狮王牙膏笔记

狮王牙膏笔记

07-27 👁️‍🗨️ 3456
海信55英寸、曲面电视液晶电视报价