亚洲看片,视频一区亚洲,国产性av

原文地址：http://www.joelonsoftware.com/articles/Unicode.html
作者：Joel Spolsky
譯文：http://local.joelonsoftware.com/wiki/Talk:Chinese_(Simplified)

每個(gè)程序員都絕對(duì)必須知道的關(guān)于字符集和Unicode的那點(diǎn)兒事（別找借口?。?/SPAN>

Unicode與字符集

你曾經(jīng)是否覺得HTML中的"Content-Type"標(biāo)簽充滿神秘？雖然你知道這個(gè)東西必須出現(xiàn)在HTML中，但對(duì)于它到底干嗎你可能一無所知。

你是否曾經(jīng)收到過來自你保加利亞朋友的郵件，到處都是"???? ?????? ??? ????"?

我很失望，因?yàn)槲野l(fā)現(xiàn)許多軟件開發(fā)人員到現(xiàn)在為止都還沒有對(duì)字符集、編碼、Unicode有一個(gè)清晰的認(rèn)識(shí)，這是個(gè)事實(shí)。幾年前，在測試FogBUGZ項(xiàng)目時(shí)，忽然想看看它能不能接收用日文寫的電子郵件。這個(gè)世界上會(huì)有人用日文寫電子郵件？我不知道。測試結(jié)果很糟糕。我仔細(xì)看了用來解析MIME (Multipurpose Internet Mail Extenisons)格式的郵件所用的ActiveX控件，發(fā)現(xiàn)了它在字符集上面做的蠢事。于是我們不得不重新寫一段代碼，先消除Active控件的錯(cuò)誤，然后再完成正確的轉(zhuǎn)換。類似的事情在我研究另一個(gè)商業(yè)庫的時(shí)候同樣發(fā)生了，這個(gè)庫關(guān)于字符編碼這部分的實(shí)現(xiàn)簡直糟透了。我找到它的開發(fā)者，把存在問題的包指給他，他卻表示對(duì)于此無能為力。像很多程序員一樣，他只希望這個(gè)缺陷會(huì)被人們遺忘。

事實(shí)并非如他所愿。因?yàn)槲野l(fā)現(xiàn)，像PHP這么流行的網(wǎng)頁開發(fā)工具，竟然在實(shí)現(xiàn)上也完全忽略了多種字符編碼的存在（譯者注：這篇文章寫于2003年，現(xiàn)在的 PHP可能已經(jīng)糾正了這個(gè)問題吧），盲目地只使用8個(gè)比特來表示字符，于是開發(fā)優(yōu)秀的國際化的Web應(yīng)用程序變成了一場夢(mèng)。我想說，受夠了。

我申明：在2003年，如果你是一個(gè)程序員，但你卻對(duì)字符、字符集、編碼和Unicode一無所知，那么你別讓我抓到你。如果落在我手里，我會(huì)讓你待在潛水艇里剝六個(gè)月的洋蔥，我發(fā)誓。

另外，還有一件事：

這個(gè)一點(diǎn)都不難。

在這篇文章里，我所講的是每一個(gè)工作中的程序員都應(yīng)該知道的知識(shí)。所有以為"純文本 = ASCII碼 = 一個(gè)字符就是8比特"的人不單單錯(cuò)了，而且錯(cuò)得離譜。如果你仍然堅(jiān)持使用這種方式編寫程序，那么你比一個(gè)不相信細(xì)菌的存在醫(yī)生好不到哪里去。所以在你讀完這篇文章以前，不要再寫半行代碼。

在我開始之前，必須說明白，如果你已經(jīng)了解了國際化，可能你會(huì)覺得這篇文章過于簡單。沒錯(cuò)，我的的確確是想架一座最短的橋，讓任何人都可以理解發(fā)生了什么事，懂得如何寫出可以在非英文語言環(huán)境是正常工作的代碼。還得指出，字符處理僅僅是軟件國際化中的一小部分，但一口吃不成個(gè)胖子，今天我們只看什么是字符集。

歷史回顧

可能你以為我要開始談非常古老的字符集如EBCDIC之類的，實(shí)際上我不會(huì)。EBCDIC與你的生活無關(guān)，我們不需要回到那么遠(yuǎn)。

關(guān)于字符集和Unicode的相關(guān)知識(shí)

回到一般遠(yuǎn)就行了。當(dāng)Unix剛出來的時(shí)候，K&R寫了《The C Programming Language》一書，那時(shí)一切都很簡單。EBCDIC已經(jīng)慚慚不用，因?yàn)樾枰硎镜淖址挥心切┎粠е匾舻挠⑽淖帜?，ASCII完全可以勝任。ASCII使用數(shù)字32到 127來表示所有的英文字母，比如空格是32，字母"A"是65等等。使用7個(gè)比特就可以存儲(chǔ)所有這樣字符。那個(gè)時(shí)代的大多數(shù)計(jì)算機(jī)使用8個(gè)比特來，所以你不但可以存儲(chǔ)全部的ASCII，而且還有一個(gè)比特可以多出來用作其他。如果你想，你可以把它用作你不可告人的目的。32以下的碼字是不可打印的，它們屬于控制字符，像7表示響鈴，12表示打印機(jī)換紙。

所有的一切都看起來那么完美，當(dāng)然前提你生在一個(gè)講英文的國家。

關(guān)于字符集和Unicode的相關(guān)知識(shí)

因?yàn)橐粋€(gè)字節(jié)有8個(gè)比特，而現(xiàn)在只用了7個(gè)，于是很多人就想到"對(duì)呀，我們可以使用128-255的碼字來表示其他東西"。麻煩來了，這么多人同時(shí)出現(xiàn)了這樣的想法，而且將之付諸實(shí)踐。于是IBM-PC上多了一個(gè)叫OEM字符集的東西，它包括了一些在歐洲語言中用到的重音字符，還有一些畫圖的字符，比如水平線、垂直線等，水平線在右端會(huì)帶一個(gè)小彎鉤，垂直線會(huì)如何等等。使用這些畫圖字符你可以畫出漂亮的框、畫出光滑的線條，在老式的烘干機(jī)上的8088電腦上你依然可以看到這些字符。事實(shí)上，當(dāng)PC在美國之外的地方開始銷售的時(shí)候，OEM字符集就完全亂套了，所有的廠商都開始按照自己的方式使用高128個(gè)碼字。比如在有些PC上，130表示é，而在另外一些在以色列出售的計(jì)算機(jī)上，它可能表示的是希伯來字母ג，所以當(dāng)美國人把包含résumés這樣字符的郵件發(fā)到以色列時(shí)，就為變?yōu)閞גsumגs。在大多數(shù)情況下，比如俄語中，高128個(gè)碼字可能用作其他更多的用途，那么你如何保證俄語文檔的可靠性呢？

最終ANSI標(biāo)準(zhǔn)結(jié)束了這種混亂。在標(biāo)準(zhǔn)中，對(duì)于低128個(gè)碼字大家都無異議，差不多就是ASCII了，但對(duì)于高128個(gè)碼字，根據(jù)你所在地的不同，會(huì)有不同的處理方式。我們稱這樣相異的編碼系統(tǒng)為碼頁(code pages)。舉個(gè)例子，比如在以色列發(fā)布的DOS中使用的碼頁是862，而在希臘使用的是737。它們的低128個(gè)完全相同，但從128往上，就有了很大差別。MS-DOS的國際版有很多這樣的碼頁，涵蓋了從英語到冰島語各種語言，甚至還有一些"多語言"碼頁。但是還得說，如果想讓希伯來語和希臘語在同一臺(tái)計(jì)算機(jī)上和平共處，基本上沒有可能。除非你自己寫程序，程序中的顯示部分直接使用位圖。因?yàn)橄２畞碚Z對(duì)高128個(gè)碼字的解釋與希臘語壓根不同。

同時(shí)，在亞洲，更瘋狂的事情正在上演。因?yàn)閬喼薜淖帜赶到y(tǒng)中要上千個(gè)字母，8個(gè)比特?zé)o論如何也是滿足不了的。一般的解決方案就是使用DBCS- "雙字節(jié)字符集"，即有的字母使用一個(gè)字節(jié)來表示，有的使用兩個(gè)字節(jié)。所以處理字符串時(shí)，指針移動(dòng)到下一個(gè)字符比較容易，但移動(dòng)到上一個(gè)字符就變得非常危險(xiǎn)了。于是s++或s--不再被鼓勵(lì)使用，相應(yīng)的比如Windows下的AnsiNext和AnsiPrev被用來處理這種情況。

可惜，不少人依然堅(jiān)信一個(gè)字節(jié)就是一個(gè)字符，一個(gè)字符就是8個(gè)比特。當(dāng)然，如果你從來都沒有試著把一個(gè)字符串從一臺(tái)計(jì)算機(jī)移到另一臺(tái)計(jì)算機(jī)，或者你不用說除英文以外的另一種語言，那么你的堅(jiān)信不會(huì)出問題。但是互聯(lián)網(wǎng)出現(xiàn)讓字符串在計(jì)算機(jī)間移動(dòng)變得非常普遍，于是所有的混亂都爆發(fā)了。非常幸運(yùn)，Unicode適時(shí)而生。

Unicode

Unicode 是一個(gè)勇敢的嘗試，它試圖用一個(gè)字符集涵蓋這個(gè)星球上的所有書寫系統(tǒng)。一些人誤以為Unicode只是簡單的使用16比特的碼字，也就是說每一個(gè)字符對(duì)應(yīng) 16比特，總共可以表示65536個(gè)字符。這是完全不正確的。不過這是關(guān)于Unicode的最普遍的誤解，如果你也這樣認(rèn)為，不用感到不好意思。

事實(shí)上，Unicode使用一種與之前系統(tǒng)不同的思路來考慮字符，如果你不能理解這種思路，那其他的也就毫無意義了。

到現(xiàn)在為止，我們的做法是把一個(gè)字母映射到幾個(gè)比特，這些比特可以存儲(chǔ)在磁盤或者內(nèi)存中。

A -> 0100 0001

在Unicode中，一個(gè)字母被映射到一個(gè)叫做碼點(diǎn)(code point)的東西，這個(gè)碼點(diǎn)可以看作一個(gè)純粹的邏輯概念。至于碼點(diǎn)(code point)如何在內(nèi)存或磁盤中存儲(chǔ)是另外的一個(gè)故事了。

在Unicode中，字母A可看做是一個(gè)柏拉圖式的理想，僅存在于天堂之中：（我的理解是字母A就是一個(gè)抽象，世界上并不存在這樣的東西，如果數(shù)學(xué)里面的0、1、2等一樣）

這個(gè)柏拉圖式的A與B不同，也與a不同，但與A和A相同。這個(gè)觀點(diǎn)就是Times New Roman字體中的A與Helvetica字體中的A相同，與小寫的"a"不同，這個(gè)應(yīng)該不會(huì)引起太多的異議。但在一些語言中，如何辨別一個(gè)字母會(huì)有很大的爭議。比如在德語中，字母 ß是看做一個(gè)完整的字母，還是看做ss的一種花式寫法？如果在一個(gè)字母的形狀因?yàn)樗幵谝粋€(gè)單詞的末尾而略有改變，那還算是那個(gè)字母嗎？阿拉人說當(dāng)然算了，但希伯來人卻不這么認(rèn)為。但無論如何，這些問題已經(jīng)被Unicode委員會(huì)的這幫聰明人給解決了，盡管這花了他們十多年的時(shí)間，盡管其中涉及多次政治味道很濃的辯論，但至少現(xiàn)在你不用再為這個(gè)操心了，因?yàn)樗呀?jīng)被解決。

每一個(gè)字母系統(tǒng)中的每一個(gè)柏拉圖式的字母在Unicode中都被分配了一個(gè)神奇的數(shù)字，比如像U+0639。這個(gè)神奇數(shù)字就是前面提到過的碼點(diǎn)(code point)。U+的意思就是"Unicode"，后面跟的數(shù)字是十六進(jìn)制的。U+0639表示的是阿拉伯字母Ain。英文字母A在Unicode中的表示是U+0041。你可以使用Windows 2000/XP自帶的字符表功能或者Unicode的官方網(wǎng)站(www.unicode.org)來查找與字母的對(duì)應(yīng)關(guān)系。

事實(shí)上Unicode可以定義的字符數(shù)并沒有上限，而且現(xiàn)在已經(jīng)超過65536了。顯然，并不是任何Unicode字符都可以用2個(gè)字節(jié)來表示了。

舉個(gè)例子，假設(shè)我們現(xiàn)在有一個(gè)字符串：

Hello

在Unicode中，對(duì)應(yīng)的碼點(diǎn)(code point)如下：

U+0048 U+0065 U+006C U+006C U+006F

瞧，僅僅是一堆碼點(diǎn)而已，或者說數(shù)字。不過到現(xiàn)在為止，我們還沒有說這些碼點(diǎn)究竟是如何存儲(chǔ)到內(nèi)存或如何表示在email信息中的。

12 下一頁

標(biāo)簽：Unicode