中日韓統一表意文字









注意:本页面含有Unihan新版用字。有关字符可能會错误显示,詳见Unicode扩展汉字。






































中日韓統一表意文字英语:CJK Unified Ideographs),也稱統一漢字統漢碼英语:Unihan),目的是要把分別來自中文、日文、韓文、越南文、壮文、琉球文中,起源相同、本義相同、形狀一樣或稍異的表意文字,在ISO 10646及萬國碼標準賦予相同編碼。


所謂「起源相同、本義相同、形狀一樣或稍異的表意文字」,主要為汉字,包括繁體字、簡化字、日本漢字(漢字/かんじ)、韓國漢字(漢字/한자)、琉球汉字 (漢字ハンジ) 、越南的喃字(.mw-parser-output .han-nom{font-family:"Nom Na Tong","Han-Nom Gothic","HAN NOM A","HAN NOM B","Ming-Lt-HKSCS-UNI-H","Ming-Lt-HKSCS-ExtB","FZKaiT-Extended","FZKaiT-Extended(SIP)","FZKaiS-Extended","FZKaiS-Extended(SIP)","Sun-ExtA","Sun-ExtB","MingLiU","MingLiU-ExtB","MingLiU_HKSCS","MingLiU_HKSCS-ExtB","SimSun","SimSun-ExtB",sans-serif}𡨸喃Chữ Nôm)與儒字(𡨸儒Chữ Nho) 、方塊壯字。




目录






  • 1 歷史


  • 2 版本


  • 3 成員機構


  • 4 字源


    • 4.1 最初期統一漢字


    • 4.2 擴展A區


    • 4.3 擴展B區


    • 4.4 Unicode 4.1漢字


    • 4.5 Unicode 5.1漢字


    • 4.6 擴展C區


    • 4.7 擴展D區


    • 4.8 擴展E區


    • 4.9 急用漢字


    • 4.10 擴展F區




  • 5 字源分離原則


  • 6 統漢字資料庫


  • 7 批評


    • 7.1 收字过少


    • 7.2 收字过多


    • 7.3 漢字〇




  • 8 已統一漢字


  • 9 未統一漢字


  • 10 技術問題


    • 10.1 擴展B區的問題


    • 10.2 错误统一的问题




  • 11 注释


  • 12 参考文献


  • 13 外部連結


  • 14 参见





歷史


1978年,日本基於ISO 2022,制訂了全世界最早的漢字編碼JIS C 6226。1980年代,中國大陸、臺灣、韓國則各自制訂了自己的規範。這些規範彼此之間並無關聯。若要在一份文件中同時使用,則要以脫序字符的方式來交換。


1980年,日本的國立國會圖書館的高橋德太郎以圖書學的觀點指出,一個統一的東亞漢字編碼系統是有必要的。同年,臺灣制定了三位元組的中文資訊交換碼。偶然的是,這是第一個期望可以一致處理中國、日本、韓國漢字的編碼。之後,美國的國會圖書館採用了此規格,並另外命名為東亞編碼字符(East Asia Coded Character,EACC,ANSI/NISO Z39.64)。


1984年,ISO的文字編碼委員會(ISO/TC 97/SC2)決議制訂出一套編碼規格(ISO 10646),是以交換文字集的方式來統一處理世界的文字。並成立了工作小組(ISO/TC 97/SC 2/ WG 2)。這個編碼一開始的構想是採用16位元,而對於日本及中國等國的漢字編碼則原封不動地加入。但若如此,中國當時所制訂的編碼都無法加入,因而反對。並於1989年,提出了各國的漢字統合集合(Han Character Collection,HCC)的構想。


1990年完成了ISO 10646的初版草案(DIS 10646)。漢字使用32位元來表示。並將各國的漢字編碼原封不動地加入。但中國認為,若各國各自為漢字編碼,將不利於統一處理漢字,因而反對。為了日後關於漢字編碼的討論及方針能順利進行,並呼籲WG 2特別設置了中日韓聯合研究小組(CJK-JRG,Joint Research Group,為表意文字小組的前身),以持續討論。


另一方面,1987年,全錄的Joe Becker和Lee Collins開發了統合處理全世界所有文字的統一碼。1989年發表了統一碼概要。基本為16位元。於是,中、日、韓文字統合了。基本方針為以16位元處理所有文字。
1990年,完成了基於此方針的最終草案。隔年1991年1月,大致同意此方案的企業成立了統一碼聯盟。中、日、韓中類似的漢字使用約二萬多個字。為了未來擴充,保留了三萬個漢字以供其它用途。


1991年,各國希望能以一致的方式處理文字,如統一碼這般,因而否決了ISO/IEC 10646的初版草案。基於中國與統一碼聯盟的提議,ISO 10646和統一碼成立了中日韓聯合研究小組。中日韓聯合研究小組將基於各國的漢字編碼,獨自訂定規範、制作ISO 10646和統一碼的統一漢字編碼。年尾,完成了Unified Repertoire and Ordering(URO)。


1992年,URO加入ISO 10646的第二版。但是,發現了一些缺失,之後進行了修正。


1993年5月,正式制訂了最初的中日韓統一表意文字,位於U+4E00–U+9FFF這個區域,共20,902個字,還有一個漢字“〇”(碼位U+3007),被當成數字放入了符號和標點區。一個月後,制訂了統一碼1.1。


1999年,依據ISO/IEC 10646的第17個修正案(Amendment 17)訂定了扩展区A,於U+3400–U+4DFF加入了6,582個字。


2001年,依據ISO/IEC 10646-2,新增了擴充區B,有42,711字。位於U+20000–U+2A6FF。但因在短時間內增加了大量的漢字,導致產生了許多重複的字形。


2005年,依據ISO/IEC 10646:2003的第1個修正案(Amendment 1),基本多文種平面增加了U+9FA6到U+9FBB等22個漢字。


2009年,統一碼5.2扩展区C增加了U+2A700–U+2B734和基本多文种平面增加了U+9FC4–U+9FCB。


2010年,統一碼6.0扩展区D增加了U+2B740–U+2B81F。


2012年, 1字增加U+9FCC。


2015年,統一碼8.0扩展区E增加了U+2B820–U+2CEAF和基本多文种平面增加了U+9FCD–U+9FD5。


2017年,统一码10.0扩展区F增加了U+2CEB0–U+2EBEF和基本多文种平面增加了U+9FD6–U+9FEA。


2018年,統一碼11.0在基本區末尾增加5個漢字:U+9FEB-U+9FEF,其中前三個是新命名的化學元素用字,後兩字來自日本。


此外,位於第三平面的擴展區G已經被接受,將於未來公佈,碼位為U+30000至U+31389。


另外,第三平面的U+31400至U+33D1F預計放置小篆,U+33E00至U+355FF預計放置甲骨文,相關提案都已經提交。按路線圖,該平面還會收錄金文、簡帛文、陶文、鳥蟲書等。[1]



版本





























































































































ISO 10646版本
Unicode版本
新增
置放平面
字數
累計字數
1993
1.0
中日韓統一表意文字

基本多文種平面(BMP,Basic Multilingual Plane)
20,902
20,915
1個漢字(〇,U+3007)
CJK符號和標點區(CJK Symbols and Punctuation)
1
位於「相容表意文字區」中但實則獨一的漢字(U+FA0E(﨎)、U+FA0F(﨏)、U+FA11(﨑)、U+FA13(﨓)、U+FA14(﨔)、U+FA1F(﨟)、U+FA21(﨡)、U+FA23(﨣)、U+FA24(﨤)、U+FA27(﨧)、U+FA28(﨨)、U+FA29(﨩)[註 1]
基本多文種平面
12
2000
3.0
中日韓統一表意文字擴展A區
基本多文種平面
6,582
27,497
2001
3.1
中日韓統一表意文字擴展B區

第二辅助平面(SIP,Supplementary Ideographic Plane)
42,711
70,208
2003第一修訂版
4.1

HKSCS-2004中未加入ISO 10646的漢字(U+9FA6-U+9FB3龦龧龨龩龪龫龬龭龮龯龰龱龲龳)和GB 18030-2000中未加入ISO 10646的印刷業常用的偏旁和字形部件(U+9FB4-U+9FBB龴龵龶龷龸龹龺龻)
基本多文種平面
22
70,230
2003第四修訂版
5.1

7個日語漢字(U+9FBC-U+9FC2龼龽龾龿鿀鿁鿂),U+4039䀹拆分為U+4039䀹和U+9FC3鿃
基本多文種平面
8
70,238
2003第五修訂版
5.2
中日韓統一表意文字擴展C區
第二辅助平面
4,149
74,395
2003第六修訂版
2個日語用漢字(ARIB #47, #95,U+9FC4鿄-U+9FC5鿅)、1個新增漢字(ARIB #93,U+9FC6鿆)、在HKSCS-2004推出後新增的5個香港漢字(U+9FC7-U+9FCB鿇鿈鿉鿊鿋)
基本多文種平面
8
2010
6.0
中日韓統一表意文字擴展D區(2B740-2B81F)
第二輔助平面
222
74,617
2012
6.1
1個漢字(U+9FCC鿌)
基本多文種平面
1
74,618
2015
8.0
中日韩统一表意文字扩展E区(2B820-2CEAF)
第二輔助平面
5,762
80,389
「急用漢字」:3个《通用规范汉字表》中的汉字(U+9FCD-U+9FCF,鿍鿎鿏)[註 2],1个从U+4CA4()分离出来的字(U+9FD0,鿐),5个其他图书用字及化学元素用字(U+9FD1-U+9FD5,鿑鿒鿓鿔鿕)
基本多文種平面
9
2017
10.0
中日韩统一表意文字扩展F区(2CEB0-2EBEF)
第二輔助平面
7,473
87,883
21個 漢字(U+9FD6-U+9FEA)
基本多文種平面
21
2018
11.0
5個漢字(U+9FEB - U+9FEF)
基本多文種平面
5
87,888


成員機構




  •  中华人民共和国


  •  香港


  •  日本


  •  大韓民國


  •  朝鲜


  •  澳門


  •  马来西亚(2008年11月第31次IRG會議加入)


  •  中華民國


Unicode 協會



  •  越南

不隸屬於任何成員機構組成的國際組織



字源



最初期統一漢字


最初期的統一漢字共20,902字,其範圍為:0x4E00—0x9FA5。其字源來自以下字集:






































































































































類別
來源代碼
名稱
字數
中國大陸
國標源(G)
G0

GB 2312-80
6,763
G1

GB 12345-90
2,352字(含58個香港字和92個吏讀字,不包括和GB 2312重複的字)
G3

GB 7589-87 繁體版本
7,237
G5

GB 7590-87 繁體版本
7,039
G7

現代漢語通用字表
42字(G0, 1, 3, 5, 8未包括的字)
G8

GB 8565.2-89
290字(G0, 1, 3, 5未包括的字)
臺灣源(T)
T1

CNS 11643-1986第一字面
5,401+9個計量用漢字
T2
CNS 11643-1986第二字面
7,650字
TE
CNS 11643-1986第十四字面
6,319+239個中文資訊交換碼特字+10個全錄字符集(Xerox Character Code Standard,XCCS)特字
日本源(J)
J0

JIS X 0208-90
6,335+非漢字1字(仝)[3]
J1

JIS X 0212-90
5,801字
韓國源(K)
K0

KS C 5601-87
4,888字(含268個重見字)
K1

KS C 5657-91
2,856字
委員會源(U)

KS C 5601-1987(當中重複的漢字)



美國國會圖書館之東亞字元編碼(East Asia Character Code,簡稱EACC;標準號ANSI Z39.64-1989)[4]



大五碼



中文資訊交換碼第一字面



GB 12052-89(漢字部分)



JEF(富士通標準)


中國大陸電報碼


臺灣電報碼(CCDC)


全錄中文編碼


人名用漢字准用字體表(人名用漢字許容字体表;日本)


IBM選取的日本和韓國表意文字


其中,統一碼技術委員會源(U源)是指,並非由表意文字小組所遞交的參考字集,而是委員會額外遞交作參考的字集標準。並且此來源的字集不適用字源分離原則(見稍後)。



擴展A區


擴展A區包含有6,582個漢字,位置在U+3400—U+4DB5。這6千多個漢字分別從以下字典或字集中取得:



































































































類別
來源代碼
名稱
字數
中國大陸
国标源(G)
G_KX
《康熙字典》
5357字(獨有1892字)
G_HZ
《漢語大字典》
5888字(獨有339字)
G3
GB 7589-87繁体版本
2391字
G5
GB 7590-87繁体版本
1226字
G7

現代漢語通用字表
120字
GS

新加坡漢字
226字
臺灣源(T)
T3
CNS 11643-1992第三字面(原本為CNS 11643-1986第十四字面)新加入字符
2178字
T4
CNS 11643-1992第四字面
2917字
T5
CNS 11643-1992第五字面
395字
T6
CNS 11643-1992第六字面
197字
T7
CNS 11643-1992第七字面
133字
TF
CNS 11643-1992第十五字面
86字
日本源(J)
JA
日本資訊科技零售商統一當代表意文字(1993)
574字
韓國源(K)
K2

PKS C 5700-1:1994

K3
PKS C 5700-2:1994
1834字
越南源(V)
V0

TCVN 5773:1993
138字
V1

TCVN 6056:1995



擴展B區


擴展B區包含有42,711個漢字,位置在U+20000—U+2A6D6。根據IRG N777號文件,這四萬多個漢字分別從以下字典或字集中取得:






























































































































類別
來源代碼
名稱
字數
中國大陸
国标源(G)
G_KX
《康熙字典》
18,486個未收錄的漢字(包括一個在補遺篇中出現的漢字)
G_HZ
《漢語大字典》
28,914個未收錄的漢字
G_CY
《辭源》
66個未收錄的漢字
G_CH
《辭海》
247個未收錄的漢字
G_HC
《漢語大詞典》
553字
G_BK
《中國大百科全書》
86個未收錄的漢字
G_FZ

北大方正排版系统
65個未收錄的漢字
G_4K
《四庫全書》
522個未收錄的漢字
香港源(H)
H

香港增補字符集(HKSCS)
1,081個未收錄的漢字
臺灣源(T)
T4
CNS 11643-1992第四字面
3,408個未收錄的漢字
T5
CNS 11643-1992第五字面
8,111個未收錄的漢字
T6
CNS 11643-1992第六字面
5,934個未收錄的漢字
T7
CNS 11643-1992第七字面
6,299個未收錄的漢字
TF
CNS 11643-1992第十五字面
6,401個未收錄的漢字
日本源(J)
J3
JIS X 0213:2000, level 3
25個未收錄的漢字
J3A
JIS X 0213:2004, level 3
1個未收錄的漢字
J4
JIS X 0213:2000, level 4
277個未收錄的漢字
韓國源(K)
K4
PKS 5700-3:1998
166個未收錄的漢字
朝鮮源(KP)
KP0

KPS 9566-97

KP1

KPS 10721-2000
5,766個未收錄的漢字
越南源(V)
V2
VHN 01:1998
2,290個未收錄的漢字
V3
VHN 02:1998
425個未收錄的漢字

這些漢字中重複的漢字有不少,所以經過整理之後,實際總數只有42,711個漢字。


另外,在U+2F800—U+2FA1D的位置,放了542個來自臺灣的兼容漢字。



Unicode 4.1漢字


為使Unicode向下兼容GB 18030和香港增補字符集(HKSCS)的所有漢字,而擴展C區又遲遲未能出籠,在Unicode 4.1版中引進了14個香港增補字符集的用字和8個GB 18030用字。該22字被編於U+9FA6—U+9FBB的位置。


另外,在U+FA70—U+FAD9的位置,放了106個來自北韓的兼容漢字。



Unicode 5.1漢字


在2008年4月推出的Unicode 5.1版本,收錄7個由日本Adobe公司遞交的日語漢字(U+9FBC-U+9FC2)[5],和鿃(大字加兩個字,就如陝西省的陝字換上目字旁)(U+9FC3)。本來Unicode 3.0收錄了目字旁加夾(大字加兩個字)字的「䀹」(U+4039),目字旁加㚒字的字,與「䀹」無論在意義和發音均不相同,故魏安(Andrew West)和井作恆(John H. Jenkins)申請追加此字[6]



擴展C區


於2009年10月發布的Unicode 5.2涵蓋了擴展C區,共收錄4,149個漢字,包括來自中國大陆、澳門、臺灣、日本、越南等尚未被編碼的漢字。位置在U+2A700—U+2B734。這四千多個漢字分別從以下字典或字集中取得:



























































































































































類別
來源代碼
名稱
字數
中國大陸
国标源(G)
G_BK
《中國大百科全書》
74字
G_FZ
北京大学方正排版系统
1個未收錄的漢字
G_HZ
《漢語大字典》
1個未收錄的漢字
G_HC
《漢語大詞典》
14個未收錄的漢字
G_GH
《古代漢語詞典》
50字
G_GJZ

商務印書館用字
61字
G_XC
《現代漢語詞典》
25字
G_CH
《辭海》
264個未收錄的漢字
G_KX
《康熙字典》及補遺
6個未收錄的漢字
G_CYY

中國測繪科學研究院用字
55字
G_ZFY
《漢語方言大辭典》
202字
G_ZJW
《殷周金文集成引得》
366字
臺灣源(T)
TC

CNS 11643-1992第12字面
634字
TD
CNS 11643-1992第13字面
767字
TE
CNS 11643-1992第14字面
350字
澳門源
MAC

澳門資訊系統字集(Colectânea dos Caracteres Chineses dos Sistemas Informáticos de Macau)
16字
日本源(J)
JK
日本國字集(Japanese KOKUJI Collection)
367字
韓國源(K)
K5
韓國表意文字小組漢字集第五版(2001,Korean IRG Hanja Character Set 5th Edition: 2001)
404字(當中主要包含古代字例)
朝鮮源(KP)
KP1
KPS 10721:2003
5357字(獨有1892字)
越南源(V)
V4
《喃字詞典》(Từ điển chữ Nôm)[阮光紅(Nguyễn Quang Hồng),2006]

《岱喃字字典》(Từ điển chữ Nôm TàyHoàng Triều Ân,2006)

《沔南喃字榜查》(Bảng tra chữ Nôm miền NamVũ Văn Kính,1994)

委員會源(U)

ABC Chinese-English Dictionary(德范克,John DeFrancis等,第二版(1998),火奴魯魯,夏威夷大學出版社)



耶穌基督後期聖徒教會香港分會用字


Mathews' Chinese-English Dictionary(Robert H. Mathews(1975),劍橋,哈佛大學出版社)


宋本《廣韻》


《中國鳥類系統檢索》(鄭作新等(2000),北京,科學出版社)



段玉裁《說文解字注》



擴展D區


擴展D區包含的都是所謂的「急用漢字」,合共222個新漢字,於2010年下旬發布的Unicode 6.0中,編碼範圍為U+2B740至U+2B81F(實際有字元為U+2B740至U+2B81D)。


擴展D區原本計劃放置擴展C區未收錄的16,000多個漢字,但在2007年5月,臺灣撤消了6,545個第二部分字集內私用漢字,不再使用字,原因是那些人名用字的擁有人或已去世或已移居外地[7],此後擴展D區縮減到大約10,000字左右。[8],由於各種阻礙,協議先把數量較少,又急切要收錄的漢字提交出來,就是「急用漢字」,以便和統一碼6.0.0版一起發表。提出的急用漢字只有二百二十二字(本來有二百二十三字,但日本撤回其中一字)。現在文字小組把第二部分字集延後到擴充E區。
















































類別
來源代碼
名稱
字數
中國大陸
国标源(G)
G_CH
《辭海》
1字
G_IDC

公安部身份證系統人名和地名用字
31字
G_XC
《现代汉语词典》
4字
G_ZH
《中华字海》
39字
臺灣源(T)
TB
CNS 11643-2007第11平面24字(教育部閩客方言用字)
24字
日本源(J)
JH
通用電子情報交換環境整備計劃(汎用電子情報交換環境整備プログラム,日本經濟產業省提出的人名和地名用字)
108字
委員會源(U)

Adobe-Japan1-5和Adobe-CNS1-5字體裏的異體字
15字


擴展E區


扩展E区亦在2015年6月17日的Unicode 8.0中发布,放置于编码范围U+2B820--U+2CEAF。


扩展E区本应包含扩展D区中未收录的10000多个汉字,但在2008年11月,中国大陆以“难以逐个找证据”为理由,撤销了3215个汉字[9],这些汉字主要用于地名、人名、姓氏,亦有数百个《中国大百科全书》中的文字。这是继台湾撤销6545字之后的又一次大规模撤销。之后又经过长时间的检查处理,E区最终定稿,共有5762字[10]

这些汉字来源如下:




































































































































类别
来源代码
名称
字数
中國大陸
国标源(G)
G_BK
《中国大百科全书》
15字
G_CH
《辞海》
112字
G_CY
《辞源》
3字
G_CYY
中国测绘科学院用字(地名用字)
98字
G_DZ
地質出版社用字
1字
G_GH
《古代汉语词典》
176字
G_HC
《汉语大词典》
7字
G_IDC

公安部身份证系统人名和地名用字
36字
G_JZ
商务印书馆用字
147字
G_KX
《康熙字典》
22字
G_RM
人民日報用字
3字
G_WZ
漢語大詞典出版社用字
12字
G_XC
《现代汉语词典》
57字
G_XH
《新華字典》
4字
G_ZFY
《汉语方言大辞典》
712字
G_ZJW
《殷周金文集成引得》
1410字
臺灣源(T)
TC

CNS 11643-1992第12平面323字(台湾人名用字)
323字
TD
CNS 11643-1992第13平面595字(台湾人名用字)
595字
TE
CNS 11643-1992第14平面339字(台湾人名用字)
339字
日本源(J)
JK
日本国字集
415字
澳门源(M)
MAC
澳门信息系统字集
48字
委員會源(U)
UTC
从各处收集到的未收录汉字
227字
越南源(V)
V4
《喃字詞典》(Từ điển chữ Nôm)[阮光紅(Nguyễn Quang Hồng),2006]
1028字
《岱喃字字典》(Từ điển chữ Nôm TàyHoàng Triều Ân,2006)
《沔南喃字榜查》(Bảng tra chữ Nôm miền NamVũ Văn Kính,1994)


急用漢字


「急用漢字」是擴展E區整理後期,各地新發現並急於使用,又等不及放入擴展F區的字;和擴展E區一起收入 Unicode 8.0,位置在 U+9FCD - U+9FD5;當中中國大陸在此處申請收入三字,連同擴展E區的字,通用規範漢字表的8105字至此全部收入。



擴展F區


扩展F区在2017年6月20日的Unicode 10.0中发布,编码范围为U+2CEB0--U+2EBEF。

扩展F区来源于新提交的一批汉字,主要包括一千多个方块壮字及数千个佛经、古籍中的用字以及日本户籍用字,共有7473字。

这些汉字的来源如下:


























































































类别
来源代码
名称
字数
中國大陸
国标源(G)
G_CY
《辞源》
122字
G_FC
《现代汉语规范词典》
27字
G_IDC
公安部身份证用字
1字
G_LGYJ
《壮族嘹歌研究》
1字
G_OCD
《牛津英汉汉英词典》
2字
G_PGLG
《壮族民歌文化丛书·平果嘹歌》
70字
G_XHZ
《新华大字典》
51字
G_Z
《古壮字字典》
995字
G_ZJW
《殷周金文集成引得》
33字
G_ZYS
《壮族人民的文化遗产——方块壮字》《中国民族古文字研究》
2字
日本源(J)
JMJ
日本文字信息基础工程
1645字
韩国源(K)
KC
韩国历史信息中心
1793字
澳门源(M)
MAC
澳门信息系统字集
22字
大藏经研究组(SAT)
USAT
《大正新修大藏经》
2884字
委員會源(U)
UTC
从各处收集到的未收录汉字
1字


字源分離原則


“字源分離原則”(Source Separation Rule)是整理中日韓統一表意文字的基礎。


由於CJK各地字型多有微妙的差異,如「戶」字的第一筆,臺灣標準作撇「戶」、香港標準、中國大陆規範作點「户」、日本標準作橫「戸」,這種程度的差異,理想上是整併為一個字為佳。然而,從之前各種受挫之文字整併計劃的經驗得知,整合字集與現行通用字集(Big5或國標碼)等無法一一對應,是推行整合字集的最大阻礙。


例如,日本的JIS標準同時收錄了「剣」字與「劍」字,原本JIS文件裡這兩個字可以並存,但採用整合字集後反而變成同一個字,會造成使用上的困擾。而且,如果將多個不同地區字形合併會影響閱讀者,令使用者不習慣並非以往所見字形;更有可能引致閱讀者因習慣而書寫不屬於自己地區的字形(或地區性的異體字)、學習錯誤的字形。於是,字源分離原則因而誕生。


而在不同地區而有不同寫法的部首,如「⻌(中國大陸規範、日本新字體)、⻍(港臺舊字形)、辶(港臺)」、「礻(中國大陸規範、日本新字體、港臺新字形)、⺬(舊字形)」、「爫(中國大陸、港臺新字形)、⺥(舊字形)」等就會交由字體處理,例如使用依中國大陸漢字標準《印刷通用漢字字形表》的字體下(如中易宋體、微軟雅黑體)便會出現「⻌、⺥」;使用港臺字體標準字體下(如微軟正黑體,但舊版細明體[註 3])就會出現「辶、爫」等字形。大大解決了因地區而異之部首寫法。


字源分離原則是指,在上述所列出之各種字源裡,若有任何字集同時收了兩種以上的文字字形,則在Unicode中日韓統一表意文字中,也同時收錄這些字。這樣一來,現行的各種原有字集與Unicode漢字可以一一對應。


由於Unicode中日韓統一表意文字的主要訴求,就是能大幅減少Unicode收錄漢字字數,同時尊重各地的習慣字形。但字源分離原則則破壞了「只對字,而不對字形」編碼之原則,亦遭受不少批評。后来的一些重复汉字会使用“兼容区”提供暂存编码,可通过归一化(normalization)步骤移除。



統漢字資料庫


統漢字資料庫是統一碼聯盟所維護的資料庫文件。其為統漢字的每個漢字做了說明,內容包含:



  • 統一碼與各國家、地區標準及各工業標準的對應。

  • 依據重要字典(如康熙字典)的排序索引。

  • 經過編碼的異體字。

  • 漢字在各種語言中的發音。

  • 英文釋義。


其資料庫透過以下幾種方式發佈:



  • 統一碼聯盟維護的網站版本[11]

  • 可供下載的txt文本文件。

  • 基於上述文件開發的第三方版本。
    • libUnihan項目開發了一套可供調用的c函式庫,和一個SQLite格式的Unihan數據庫。[12]前者以LGPL協議發布,後者以MIT協議發布。




批評



收字过少


合併同義字,雖有助減少收錄字數,但在研究學術時,如古籍、歷史及文字研究等,部份文獻確要將字形不同之字同時並列,已合併各字,變得各有各意思。學者若用Unicode,遇此情況,就要用同碼不同電腦字形,甚至要自行造字,或捨Unicode而用其他編碼。一來尋轉電腦字形不便,二來有損Unicode記錄每一個字之用意,三來不能以純文本交換。另外亦不能以Unicode準確記錄文獻,原本不同字形之字合併,原有有別義,轉Unicode而訛誤,不利於文本存於電腦。


另外,同一部件,有分有合,原則不一致。如「眞」「」分、「」「」合而「値」「」又分,令人混淆。


不同字形之字合併後,若檢索方法以字形爲本,會混亂而難以檢索。例如筆劃檢字,艸部之草花頭,中國、日本計三劃,而傳統中文四劃,留有艸形則六劃。Unicode同一字碼,源於字形不同,就有幾種筆劃,檢索混亂。即使檢出字,筆劃與顯示之字亦不符。


文化上,東亞各國用字形有別,用電腦字形亦有別,在日本難以用傳統字之電腦字體,在港臺難以用日本電腦字體,故合併後,文本要顯示文化差異之字形,則大有困難。



收字过多


但是另一方面,也有批评认为Unicode收入大量错讹字及写法高度相似的同一字的不同字形本身就是不应该的。电脑文本本身永远不可能完全无损地记录文献,且文献本身也会因传抄制版等原因略有不同,如果把每个字的各种写法全部编码,不仅浪费空间,而且检索困难,写法稍有不同就无法检出,以至于检索字词时必须反复检索其不同写法,造成重复劳动,对文献研究反而是种妨碍,例如Unicode中将避讳的缺笔字也进行编码,在检索文献时,这些字无法检索出,反造成困扰。完全无损地研究、记录文献只能通过查看原本或照相影印版来完成,把无损保存转嫁给编码是错误的。



漢字〇


〇是一個漢字,《集韻》中已有此字,則天文字中亦有此字。《漢語大字典》、《中華字海》、《現代漢語詞典》都收錄了此字。但在Unicode中它被放入CJK符號和標點區,被等同於數字0,在搜索〇的時候,會連帶搜索出數字0,使用上頗為不便(搜索漢字一二三,不會搜索出數字123)。此外,很多程序限定了漢字的範圍為Unicode各漢字區,區外不視為漢字,由於〇不在漢字區中,導致這些程序無法處理〇這個漢字,造成不便。



已統一漢字


原則上ISO 10646只對字(Character),而非字形(Glyph)編碼。同一字各地可使用自己的標準寫法。以下使用HTML標示同一編碼的字在不同地區的寫法(但只是读者的浏览器所提供的字型,未必代表該地區的標準寫法)。


例子

















































































































Unicode
中文
日文
韓文
越文
中国大陸 臺灣 香港
U+623F

U+6C49
[註 4]

U+6E2F

U+6F22

U+76F4

U+7A97

U+89D2

U+8AA4

U+8BEF
[註 4]

U+8D77

U+9AA8


註:不是所有網頁瀏覽器均可分辨全部HTML的語言代碼(Language Code)並使用不同字形。如非某一地区的使用者看到的字形和当地通用的字形一樣,表示该用户的瀏覽器不能分辨此標籤,或設定兩者以同一種字形顯示。具体情况请参考Test results: Automatic font assignment for CJK text。



未統一漢字



有些字只是同一字在不同地區的寫法,理應統一,但因為字源分離原則而只好分開編碼。由於KS X 1001、Big5、IBM 32、JIS X 0213、ARIB STD-B24、KPS 10721、CNS 11643中有太多字形非常接近,按Unicode標準應該統一,但是從編碼上分離的字。這些字只有正統的會編入正式字集(包括擴展區),不正統的編入「相容表意文字區」(Compatibility Ideographs)和位於「第二輔助平面」的「相容表意文字補充區」(Compatibility Ideographs Supplement)中。


範例:



















































































































































































































Unicode Unicode Unicode
U+4E1F U+4E22
U+514C U+5151
U+518A U+518C
U+5433 U+5434 U+5449
U+543F U+544A
U+5965 U+5967
U+5968 U+596C U+734E
U+5986 U+599D
U+59CD U+59D7
U+5C13 U+5C14
U+5F54 U+5F55
U+6236 U+6237 U+6238
U+63FA U+6416 U+6447
U+66A8 U+66C1
U+69D8 U+6A23
U+6A2A U+6A6B
U+6B65 U+6B69
U+7155 U+7199
U+7D55 U+7D76
U+7DA0 U+7DD1
U+9AEA U+9AEE
U+9EAA U+9EAB
U+9EBC U+9EBD
U+9EC3 U+9EC4
U+9ED1 U+9ED2


自上表發表後,WG2亦調查過其他漢字[13],認為另一批屬於基本多文種平面的漢字,亦可考慮收編到ISO 10646 Annex S3。



技術問題



擴展B區的問題


擴展B區使用了輔助平面來擺放漢字,以致不少文書處理軟件都不能支援。例如,Microsoft Office 2000或之前的版本,即使電腦擁有擴展B區漢字字體,也只會顯示兩個方格。


另外,因擴展B區在整理上有缺陷,收錄了以下5個本來應該與其他漢字統一的字[14]



  • U+20457 𠑗 = U+34A8

  • U+2420E 𤈎 = U+3DB7

  • U+27144 𧅄 = U+8641

  • U+23515 𣔕 = U+204F2 𠓲

  • U+249E9 𤧩 = U+249BC 𤦼


而在WG2 N1155[13]文件中,亦列出了152對可考慮統一的漢字。



错误统一的问题


表意文字小组(IRG)处理文字时,遵循对字而不是对字形编码的原则。但是有的字被错误统一编在同一个编码之中,如编码为U+2827C的汉字。2014年5月有人指出了这个问题[15]













编码 台湾源(TF-6127) 香港源(H-8BAE)
U+2827C 𨉼
𨉼

当惡和悪作为部件时是不应该统一的,因为惡和悪的繁简性质不同。相关的规定中也并未提及惡和悪作为部件应当统一,况且𫫖和噁是分开编码的。


但是当表意文字小组(IRG)收到这个问题后,认为应当保持统一[16]。因此这两个字仍然在同一编码之中。



注释




  1. ^ 這12個字放到兼容區不是因為和其他字同形或為異體,而是因為它們只收錄在廠商用字中,但未有收錄在官方標準(C-、T-、J-、K-Source)中。他們有獨立的形、音、義,即「獨一」(unique)[2]


  2. ^ 《 通用規範漢字表》中的8105字至此全部收入。


  3. ^ 舊版“細明體”指Windows XP或以前版本之新細明體及細明體。


  4. ^ 4.04.1 某些碼位原來只有個別地區的字,但其他地區為兼容國際標準,逐漸將所有碼位的字亦納入其國家標準。



参考文献





  1. ^ Roadmap to the TIP. 統一碼聯盟. [2018-06-03]. 


  2. ^ Unicode 6.1, 第410-411頁 [1]


  3. ^ Hanazono fonts. fonts.jp. 


  4. ^ CJK Codes - CCCII and ANSI Z39.64-1989 (EACC). www.ibiblio.org. 


  5. ^ http://std.dkuug.dk/JTC1/SC2/WG2/docs/n3210.pdf


  6. ^ http://std.dkuug.dk/jtc1/sc2/wg2/docs/n3196.pdf


  7. ^ IRG N 1306: Request to Withdraw 6545 T-Source from CJK D candidate 页面存档备份,存于互联网档案馆


  8. ^ IRGN1319A1_MoveToCJK_D.pdf. (原始内容 (PDF)存档于2018-01-15). 


  9. ^ 存档副本 (PDF). [2015年12月12日]. (原始内容 (PDF)存档于2015年1月4日). 


  10. ^ http://www.unicode.org/charts/PDF/U2B820.pdf


  11. ^ 統漢字資料庫. 統一碼聯盟. [2009-05-04]. 


  12. ^ libUnihan主頁. libUnihan. [2009-05-04]. 


  13. ^ 13.013.1 http://www.cse.cuhk.edu.hk/~irg/irg/irg25/IRGN1155_Possible_Duplicates.pdf[永久失效連結]


  14. ^ http://std.dkuug.dk/JTC1/SC2/wg2/docs/n2644.pdf


  15. ^ 存档副本 (PDF). [2015-06-20]. (原始内容 (PDF)存档于2015-06-20). 


  16. ^ ,第5条 (PDF). [2015-06-20]. (原始内容 (PDF)存档于2015-06-20). 




外部連結



  • 統一碼裏中日韓表意文字和相關字符淺說

  • CJK-CODE

  • UTF-8 and Unicode FAQ for Unix/Linux

  • 中華民國教育部異體字字典附錄-中日韓共用漢字表



Unicode(統一碼)


  • 漢字統合歷史

  • 統漢字搜尋工具

  • 表意文字變體數據庫

  • Unicode Roadmap to the SIP


  • 中日韓統一表意文字(PDF,5.11MB)


  • 中日韓兼容漢字(PDF,650kB)


  • 中日韓兼容漢字補充(PDF,595kB)


  • 擴展A區漢字(PDF,1.68MB)


  • 擴展B區漢字(PDF,12.3MB)


  • 擴展B區兼容漢字(PDF,608kB)


  • 擴展C區漢字(PDF,2.47MB)


  • 擴展D區漢字(PDF,226kB)


  • 擴展E區漢字(PDF,3.41MB)


  • 擴展F區漢字(PDF,4.23MB)


  • 查「Unicode 編碼」或「教育部異體字字典字號」(CBETA 中華電子佛典協會)



ISO表意文字工作組


  • ISO表意文字工作組網站

    • ISO/IEC 10646 Annex S漢字統一及編排步驟

    • 擴展C區編碼網站

    • 急用汉字(UNC)多栏列表




参见





  • 表意文字、语素文字、汉字、汉字文化圈

  • 辅助平面

  • 字形


  • ISO 10646 - Unicode - 國際表意文字核心(IICore)

  • Wikipedia:Unicode扩展汉字









Popular posts from this blog

Lambaréné

Chris Pine

Kashihara Line