字符集与编码(四)——Unicode

摘要:本文系统介绍了 Unicode 方面的一些重要知识,如码点,平面,代理区,代理对以及 UTF,用具体的例子讲解了码点到 UTF-8 及 UTF-16 的转换原理与过程。文中还顺便鸟瞰了一下 BMP 字符集,以此获取更加直观的印象。

前面谈到不少的 Unicode,但一直没有系统地谈及 Unicode 的方方面面,所以本篇文章专门谈谈 Unicode,当然了,Unicode 是一个庞大的主题,这里也是拣些重要的方面谈谈而已,免不了挂一漏万。

继续阅读“字符集与编码(四)——Unicode”

字符集与编码(二)——编号 vs 编码

摘要:编号是字符到最终编码的一个过渡层与抽象层,起着承上启下的作用,它与最终编码在形式上也常常很相似,在 Unicode 中,码点(code point)扮演的正是编号的角色。广义而言,编号其实也是一种编码。

在深入研究字符集编码,简称编码之前,我们先引入一个概念:编号(code),引入它是为了更好地编码(encode)相区分。

继续阅读“字符集与编码(二)——编号 vs 编码”