汉字编码
1、单根字
由汉字拆分出的字根,按字根笔画首次出现顺序排列,取前三根及末根的主码,构成该汉字的编码。不足四码的,补末根辅码。对于双根字,因仍不足四码,再补首根辅码;但无音辅码“v”不再补。而对于不常用单根字或超集单根字,为了避免重码,也补辅码至四码。
1)通常情况下,单根字的汉字编码就是字根编码本身(形如:Aa)。如:
“一”字,汉字编码就是字根编码,即“hv”。
“了”字,汉字编码为“ml”。
“不”字,汉字编码为“tb”。
“我”字,汉字编码为“gw”。
“人”字,汉字编码为“ar”。
2)对于字频较靠后的单根字(如:“止”、“手”、“鱼”、“來”、“車”等),为了避免重码,补辅码至三码(形如:Aaa)。如:
“止”字,字根编码为“yz”,为了避免与“走”重码,汉字编码补辅码“z”,即“yzz”。
“手”字,汉字编码为“fss”。
“鱼”字,汉字编码为“qyy”。
“來”字,汉字编码为“kl”,因其为繁体字,为避让简码,汉字编码补辅码“l”,即“kll”。
“車”字,汉字编码为“fjj”。
3)而对于不常用单根字或超集单根字,为了避免重码,补辅码至四码(形如:Aaaa)。如:
“尢”字,字根编码为“wv”,因其不常用,汉字编码补辅码“vv”,即“wvvv”。
“亻”字,汉字编码为“vrrr”。
“攵”字,汉字编码为“dppp”。
“𡈼”字,字根编码为“er”,因其为超集汉字,汉字编码补辅码“rr”,即“errr”。
“𠂇”字,汉字编码为“fvvv”。
2、双根字
当一个汉字由两个字根组成时,其汉字编码分别取首根主码、末根双编码,再补首根辅码(形如:ABba);但首根为无音的不再补辅码“v”(形如:ABb)。如:
“他”字,由字根“亻(Vr)”和“也(Py)”组成,汉字编码分别取首根“亻”的主码“V”、末根“也”的双编码“Py”,再补首根“亻”的辅码“r”,即“vpyr”。
“这”字,由字根“文(Jw)”和“辶(Lz)”组成,汉字编码为“jlzw”。
“来”字,由字根“未(Kw)”和“丷(Vv)”组成,汉字编码为“kvvw”。
“有”字,由字根“𠂇(Fv)”和“⺝(My)”组成,汉字编码分别取首根“𠂇”的主码“F”、末根“⺝”的双编码“My”,而首根“𠂇”为无音辅码不再补“v”,即“fmy”。
“上”字,由字根“⺊(Lv)”和“一(Hv)”组成,汉字编码为“lhv”。
3、三根字
当一个汉字由三个字根组成时,其汉字编码分别取首根主码、次根主码、末根双编码(形如:ABCc)。如:
“的”字,由字根“白(Bb)”、“勹(Hb)”、“丶(Qv)”组成,汉字编码分别取首根“白”的主码“B”、次根“勹”的主码“H”、末根“丶”的双编码“Qv”,即“bhqv”。
“是”字,由字根“日(Dr)”、“一(Hv)”、“龰(Yv)”组成,汉字编码为“dhyv”。
“在”字,由字根“𠂇(Fv)”、“丨(Iv)”、“土(Yt)”组成,汉字编码为“fiyt”。
4、多根字
当一个汉字由四个及以上字根组成时,其汉字编码分别取首根、次根、三根、末根的主码(形如:ABCZ)。如:
“得”字,由字根“彳(Mc)”、“日(Dr)”、“一(Hv)”、“寸(Fc)”组成,汉字编码分别取其主码,即“mdhf”。
“能”字,由字根“厶(Uv)”、“⺝(My)”、“匕(Tb)”、“匕(Tb)”组成,汉字编码为“umtt”。
“满”字,由字根“氵(Cs)”、“艹(Hc)”、“一(Hv)”、……“人(Ar)”等组成,汉字编码分别取首根、次根、三根、末根的主码,即“chha”。
“凸”字,由字根“丨(Iv)”、“一(Hv)”、“丨(Iv)”、……“一(Hv)”等组成,汉字编码为“ihih”。