原文地址http://www.joelonsoftware.com/articles/Unicode.html
作者:Joel Spolsky
譯文:http://local.joelonsoftware.com/wiki/Talk:Chinese_(Simplified)

每個(gè)程序員都絕對(duì)必須知道的關(guān)于字符集和Unicode的那點(diǎn)兒事(別找借口?。?/SPAN>

Unicode與字符集

你曾經(jīng)是否覺得HTML中的"Content-Type"標(biāo)簽充滿神秘?雖然你知道這個(gè)東西必須出現(xiàn)在HTML中,但對(duì)于它到底干嗎你可能一無所知。

你是否曾經(jīng)收到過來自你保加利亞朋友的郵件,到處都是"???? ?????? ??? ????"?

我很失望,因?yàn)槲野l(fā)現(xiàn)許多軟件開發(fā)人員到現(xiàn)在為止都還沒有對(duì)字符集、編碼、Unicode有一個(gè)清晰的認(rèn)識(shí),這是個(gè)事實(shí)。幾年前,在測試FogBUGZ項(xiàng)目時(shí),忽然想看看它能不能接收用日文寫的電子郵件。這個(gè)世界上會(huì)有人用日文寫電子郵件?我不知道。測試結(jié)果很糟糕。我仔細(xì)看了用來解析MIME (Multipurpose Internet Mail Extenisons)格式的郵件所用的ActiveX控件,發(fā)現(xiàn)了它在字符集上面做的蠢事。于是我們不得不重新寫一段代碼,先消除Active控件的錯(cuò)誤,然后再完成正確的轉(zhuǎn)換。類似的事情在我研究另一個(gè)商業(yè)庫的時(shí)候同樣發(fā)生了,這個(gè)庫關(guān)于字符編碼這部分的實(shí)現(xiàn)簡直糟透了。我找到它的開發(fā)者,把存在問題的包指給他,他卻表示對(duì)于此無能為力。像很多程序員一樣,他只希望這個(gè)缺陷會(huì)被人們遺忘。

事實(shí)并非如他所愿。因?yàn)槲野l(fā)現(xiàn),像PHP這么流行的網(wǎng)頁開發(fā)工具,竟然在實(shí)現(xiàn)上也完全忽略了多種字符編碼的存在(譯者注:這篇文章寫于2003年,現(xiàn)在的 PHP可能已經(jīng)糾正了這個(gè)問題吧),盲目地只使用8個(gè)比特來表示字符,于是開發(fā)優(yōu)秀的國際化的Web應(yīng)用程序變成了一場夢(mèng)。我想說,受夠了。

我申明:在2003年,如果你是一個(gè)程序員,但你卻對(duì)字符、字符集、編碼和Unicode一無所知,那么你別讓我抓到你。如果落在我手里,我會(huì)讓你待在潛水艇里剝六個(gè)月的洋蔥,我發(fā)誓。

另外,還有一件事:

這個(gè)一點(diǎn)都不難。

在這篇文章里,我所講的是每一個(gè)工作中的程序員都應(yīng)該知道的知識(shí)。所有以為"純文本 = ASCII碼 = 一個(gè)字符就是8比特"的人不單單錯(cuò)了,而且錯(cuò)得離譜。如果你仍然堅(jiān)持使用這種方式編寫程序,那么你比一個(gè)不相信細(xì)菌的存在醫(yī)生好不到哪里去。所以在你讀完這篇文章以前,不要再寫半行代碼。

在我開始之前,必須說明白,如果你已經(jīng)了解了國際化,可能你會(huì)覺得這篇文章過于簡單。沒錯(cuò),我的的確確是想架一座最短的橋,讓任何人都可以理解發(fā)生了什么事,懂得如何寫出可以在非英文語言環(huán)境是正常工作的代碼。還得指出,字符處理僅僅是軟件國際化中的一小部分,但一口吃不成個(gè)胖子,今天我們只看什么是字符集。

歷史回顧

可能你以為我要開始談非常古老的字符集如EBCDIC之類的,實(shí)際上我不會(huì)。EBCDIC與你的生活無關(guān),我們不需要回到那么遠(yuǎn)。

關(guān)于字符集和Unicode的相關(guān)知識(shí)

回到一般遠(yuǎn)就行了。當(dāng)Unix剛出來的時(shí)候,K&R寫了《The C Programming Language》一書,那時(shí)一切都很簡單。EBCDIC已經(jīng)慚慚不用,因?yàn)樾枰硎镜淖址挥心切┎粠е匾舻挠⑽淖帜?,ASCII完全可以勝任。ASCII使用數(shù)字32到 127來表示所有的英文字母,比如空格是32,字母"A"是65等等。使用7個(gè)比特就可以存儲(chǔ)所有這樣字符。那個(gè)時(shí)代的大多數(shù)計(jì)算機(jī)使用8個(gè)比特來,所以你不但可以存儲(chǔ)全部的ASCII,而且還有一個(gè)比特可以多出來用作其他。如果你想,你可以把它用作你不可告人的目的。32以下的碼字是不可打印的,它們屬于控制字符,像7表示響鈴,12表示打印機(jī)換紙。

所有的一切都看起來那么完美,當(dāng)然前提你生在一個(gè)講英文的國家。

關(guān)于字符集和Unicode的相關(guān)知識(shí)

因?yàn)橐粋€(gè)字節(jié)有8個(gè)比特,而現(xiàn)在只用了7個(gè),于是很多人就想到"對(duì)呀,我們可以使用128-255的碼字來表示其他東西"。麻煩來了,這么多人同時(shí)出現(xiàn)了這樣的想法,而且將之付諸實(shí)踐。于是IBM-PC上多了一個(gè)叫OEM字符集的東西,它包括了一些在歐洲語言中用到的重音字符,還有一些畫圖的字符,比如水平線、垂直線等,水平線在右端會(huì)帶一個(gè)小彎鉤,垂直線會(huì)如何等等。使用這些畫圖字符你可以畫出漂亮的框、畫出光滑的線條,在老式的烘干機(jī)上的8088電腦上你依然可以看到這些字符。事實(shí)上,當(dāng)PC在美國之外的地方開始銷售的時(shí)候,OEM字符集就完全亂套了,所有的廠商都開始按照自己的方式使用高128個(gè)碼字。比如在有些PC上,130表示é,而在另外一些在以色列出售的計(jì)算機(jī)上,它可能表示的是希伯來字母ג,所以當(dāng)美國人把包含résumés這樣字符的郵件發(fā)到以色列時(shí),就為變?yōu)閞גsumגs。在大多數(shù)情況下,比如俄語中,高128個(gè)碼字可能用作其他更多的用途,那么你如何保證俄語文檔的可靠性呢?

最終ANSI標(biāo)準(zhǔn)結(jié)束了這種混亂。在標(biāo)準(zhǔn)中,對(duì)于低128個(gè)碼字大家都無異議,差不多就是ASCII了,但對(duì)于高128個(gè)碼字,根據(jù)你所在地的不同,會(huì)有不同的處理方式。我們稱這樣相異的編碼系統(tǒng)為碼頁(code pages)。舉個(gè)例子,比如在以色列發(fā)布的DOS中使用的碼頁是862,而在希臘使用的是737。它們的低128個(gè)完全相同,但從128往上,就有了很大差別。MS-DOS的國際版有很多這樣的碼頁,涵蓋了從英語到冰島語各種語言,甚至還有一些"多語言"碼頁。但是還得說,如果想讓希伯來語和希臘語在同一臺(tái)計(jì)算機(jī)上和平共處,基本上沒有可能。除非你自己寫程序,程序中的顯示部分直接使用位圖。因?yàn)橄2畞碚Z對(duì)高128個(gè)碼字的解釋與希臘語壓根不同。

同時(shí),在亞洲,更瘋狂的事情正在上演。因?yàn)閬喼薜淖帜赶到y(tǒng)中要上千個(gè)字母,8個(gè)比特?zé)o論如何也是滿足不了的。一般的解決方案就是使用DBCS- "雙字節(jié)字符集",即有的字母使用一個(gè)字節(jié)來表示,有的使用兩個(gè)字節(jié)。所以處理字符串時(shí),指針移動(dòng)到下一個(gè)字符比較容易,但移動(dòng)到上一個(gè)字符就變得非常危險(xiǎn)了。于是s++或s--不再被鼓勵(lì)使用,相應(yīng)的比如Windows下的AnsiNext和AnsiPrev被用來處理這種情況。

可惜,不少人依然堅(jiān)信一個(gè)字節(jié)就是一個(gè)字符,一個(gè)字符就是8個(gè)比特。當(dāng)然,如果你從來都沒有試著把一個(gè)字符串從一臺(tái)計(jì)算機(jī)移到另一臺(tái)計(jì)算機(jī),或者你不用說除英文以外的另一種語言,那么你的堅(jiān)信不會(huì)出問題。但是互聯(lián)網(wǎng)出現(xiàn)讓字符串在計(jì)算機(jī)間移動(dòng)變得非常普遍,于是所有的混亂都爆發(fā)了。非常幸運(yùn),Unicode適時(shí)而生。

Unicode

Unicode 是一個(gè)勇敢的嘗試,它試圖用一個(gè)字符集涵蓋這個(gè)星球上的所有書寫系統(tǒng)。一些人誤以為Unicode只是簡單的使用16比特的碼字,也就是說每一個(gè)字符對(duì)應(yīng) 16比特,總共可以表示65536個(gè)字符。這是完全不正確的。不過這是關(guān)于Unicode的最普遍的誤解,如果你也這樣認(rèn)為,不用感到不好意思。

事實(shí)上,Unicode使用一種與之前系統(tǒng)不同的思路來考慮字符,如果你不能理解這種思路,那其他的也就毫無意義了。

到現(xiàn)在為止,我們的做法是把一個(gè)字母映射到幾個(gè)比特,這些比特可以存儲(chǔ)在磁盤或者內(nèi)存中。

A -> 0100 0001

在Unicode中,一個(gè)字母被映射到一個(gè)叫做碼點(diǎn)(code point)的東西,這個(gè)碼點(diǎn)可以看作一個(gè)純粹的邏輯概念。至于碼點(diǎn)(code point)如何在內(nèi)存或磁盤中存儲(chǔ)是另外的一個(gè)故事了。

在Unicode中,字母A可看做是一個(gè)柏拉圖式的理想,僅存在于天堂之中:(我的理解是字母A就是一個(gè)抽象,世界上并不存在這樣的東西,如果數(shù)學(xué)里面的0、1、2等一樣)

A

這個(gè)柏拉圖式的AB不同,也與a不同,但與AA相同。這個(gè)觀點(diǎn)就是Times New Roman字體中的A與Helvetica字體中的A相同,與小寫的"a"不同,這個(gè)應(yīng)該不會(huì)引起太多的異議。但在一些語言中,如何辨別一個(gè)字母會(huì)有很大的爭議。比如在德語中,字母 ß是看做一個(gè)完整的字母,還是看做ss的一種花式寫法?如果在一個(gè)字母的形狀因?yàn)樗幵谝粋€(gè)單詞的末尾而略有改變,那還算是那個(gè)字母嗎?阿拉人說當(dāng)然算了,但希伯來人卻不這么認(rèn)為。但無論如何,這些問題已經(jīng)被Unicode委員會(huì)的這幫聰明人給解決了,盡管這花了他們十多年的時(shí)間,盡管其中涉及多次政治味道很濃的辯論,但至少現(xiàn)在你不用再為這個(gè)操心了,因?yàn)樗呀?jīng)被解決。

每一個(gè)字母系統(tǒng)中的每一個(gè)柏拉圖式的字母在Unicode中都被分配了一個(gè)神奇的數(shù)字,比如像U+0639。這個(gè)神奇數(shù)字就是前面提到過的碼點(diǎn)(code point)。U+的意思就是"Unicode",后面跟的數(shù)字是十六進(jìn)制的。U+0639表示的是阿拉伯字母Ain。英文字母A在Unicode中的表示是U+0041。你可以使用Windows 2000/XP自帶的字符表功能或者Unicode的官方網(wǎng)站(www.unicode.org)來查找與字母的對(duì)應(yīng)關(guān)系。

事實(shí)上Unicode可以定義的字符數(shù)并沒有上限,而且現(xiàn)在已經(jīng)超過65536了。顯然,并不是任何Unicode字符都可以用2個(gè)字節(jié)來表示了。

舉個(gè)例子,假設(shè)我們現(xiàn)在有一個(gè)字符串:

Hello

在Unicode中,對(duì)應(yīng)的碼點(diǎn)(code point)如下:

U+0048 U+0065 U+006C U+006C U+006F

瞧,僅僅是一堆碼點(diǎn)而已,或者說數(shù)字。不過到現(xiàn)在為止,我們還沒有說這些碼點(diǎn)究竟是如何存儲(chǔ)到內(nèi)存或如何表示在email信息中的。

標(biāo)簽:Unicode

相關(guān)文章

隨機(jī)推薦