汉字拆分
天码方案根据汉字的形状结构,按照一定的拆分规则,将汉字拆分成若干个字根。
1、字根构成
汉字是由笔画构成,多个笔画之间按照一定规则可组合成一个字根。
1)连续书写的笔画序列可组成字根。如:
“码”字中,“石”、“马”的笔画均为连续书写,因此“码”字可拆分成“石”、“马”字根。
2)有些笔画序列虽然不是连续书写,但如果笔顺中断处有笔画交连,也可形成笔顺延续,从而组成字根。如:
“可”字中,虽然是先写“一”,再写“口”,最后写“亅”,但由于“一”与“亅”笔画相连,可组成“丁”字根。
“或”字中,虽然“戈”部件在写完“一”后,笔顺有中断,但由于“一”与后面的“㇂”笔画相交,可使笔顺延续下去,从而组成“戈”字根。
3)不是连续书写的离散笔画,一般不构成字根。但如果与其间结构左右包夹或左右并排的,也可构成字根。如:
“亘”字中,上下两个“一”不是连续书写,又不存在笔画交连,不得组成“二”字根。
“为”字中,两个“丶”不是连续书写,不得组成“⺀”字根。
“痳”字中,“广”、“林”不是连续书写,不得组成“麻”字根。
“胤”字中,“丿”、“乚”左右包夹“幺”和“⺝”,可组成“儿”字根。
“𭀡”字中,“丿”、“乚”和“三”左右并排,可组成“儿”字根。
“州”字中,“川”和“”相互交错,不构成左右包夹或左右并排结构,不得组成“川”、“”字根。
2、特殊结构
由于汉字结构复杂性,如果纯粹按以上规则进行拆分,会出现一些怪异而不易识别的字根。为提高拆分的辨识度,对一些特殊结构做特别处理:
1)“口、囗”包围部件,应保持其完整性而不拆分。如:
“曱”字,可拆分成“囗”、“丅”,或者“日”、“丨”,但不得拆分成“ㄇ”、“干”,因为“囗”结构必须完整地保留在一个字根内。
2)“口、囗、匚、コ”包围部件所包含的笔画,原则上不再与外部笔画构成字根。如:
“曵”字,不得拆分成“囗”、“戈”,因为“戈”字根部分包含在“囗”字根之内、而部分在外,造成字根不易识别。
“唐”字,下部不得拆分成“コ”、“古”。
“妻”字,上部不得拆分成“𰀁”、“コ”,但可拆分成“十”、“⺕”,因为“十”仅穿越“⺕”,可不算作包含在“⺕”之内。
3)“木”部件、以及连续书写或位置并排的竖(撇)部件(如“〢”、“”等),应优先保持其完整性。
“朱”字,可拆分成“丿”、“未”,以保持“木”部件完整性,但不得拆分成“牛”、“八”。
“耒”字,可拆分成“二”、“木”,但不得拆分成“丰”、“八”。
“曲”字,可拆分成“日”、“〢”,但不得拆分成“由”、“丨”。
4)“纟、亼、吂”等复杂离散字根,不得在笔画离散处发生错位、或者与其他字根相交。如:
“丛”字,不得拆分成“亼”、“人”或者“人”、“亼”,因为“人”与“一”在笔画离散处发生错位,造成“亼”字根不易识别。
“𬾽”字,不得拆分成“亼”、“由”、“心”,因为“亼”在笔画离散处与“由”相交,造成“亼”字根不易识别。
5)“壬、龶、丰、𡗗”等超过二横(撇)字根,不得在中部与复杂笔画相交、或不等距包夹其他结构。如:
“垂”字,不得拆分成“壬”、“龷”,因为“壬”中部与多笔画相交,造成字根不易识别。
“夀”字,上部不得拆分成“龶”、“乛”、“口”。
“𠡦”字,不得拆分成“丿”、“丰”、“力”、“力”,因为“丰”中部三横不等距包夹“力”,造成字根不易识别。
3、拆分优先级
当一个汉字同时存在多种拆分方案,出现拆分歧义时,按以下优先级的先后顺序逐条进行取舍,保留优先选项,直至确定出唯一拆分方案为止:
1)根少优先。字根数量最少的优先,如:
“㕚”字,可拆分成“又”、“⺀”,也可拆分成“又”、“丶”、“丶”,前者字根少优先。
“屯”字,可拆分成“七”、“凵”,也可拆分成“一”、“凵”、“乚”,前者字根少优先。
“垂”字,可拆分成“千”、“龷”、“一”,也可拆分成“丿”、“一”、“艹”、“土”,前者字根少优先。
“敢”字,可拆分成“𠃍”、“耳”、“攵”,也可拆分成“ユ”、“ㅒ”、“一”、“攵”,前者字根少优先。
“幽”字,优先拆分成“山”、“幺”、“幺”。
“酉”字,优先拆分成“西”、“一”。
2)包围优先。“匚、匸、コ、ユ”包围部件优先取根,如:
“匹”字,可拆分成“匚”、“儿”,也可拆分成“兀、“𠃊”,前者取包围部件优先。
“五”字,中部可拆分成“丅”、“ユ”,也可拆分成“工”、“𠃍”,前者取包围部件优先。
“丑”字,优先拆分成“ユ”、“十”。
“舝”字,上部优先拆分成“ユ”、“丨”。
3)散、连、夹、交。相关联字根之间一般呈现离散、粘连、包夹、相交等关系:
离散:字根之间相互分离,如:旦。
粘连:字根之间有粘连之处,如:早。
包夹:字根离散部分被其他字根分隔,如:办。
相交:字根之间相互交叉,如:東。
按“散>连>夹>交”优先顺序,拆分优先级较高的字根组合。如:
“全”字,可拆分成“人”、“王”,也可拆分成“亼”、“土”,前者“散>连”优先。
“元”字,可拆分成“一”、“兀”,也可拆分成“二”、“儿”,前者“散>连”优先。
“云”字,优先拆分成“一”、“𠫔”。
“亍”字,优先拆分成“一”、“丁”。
“𫝄”字,优先拆分成“丿”、“人”。
“𠃔”字,优先拆分成“𠂈”、“乚”。
“兰”字,优先拆分成“䒑”、“二”。
“歳”字,中部可拆分成“一”、“小”,也可拆分成“丁”、“八”,前者“连>夹”优先。
“丞”字,可拆分成“㇇”、“水”、“一”,也可拆分成“了”、“”、“一”,前者“㇇”、“水”“连>夹”优先。
“承”字,优先拆分成“㇇”、“水”、“三”。
“𤓯”字,优先拆分成“一”、“𡭔”。
“重”字,可拆分成“丿”、“車”、“一”,也可拆分成“千”、“日”、“二”,前者“连>交”优先。
“尨”字,可拆分成“龙”、“𰀪”,也可拆分成“尤”、“彡”,前者“连>交”优先。
“天”字,优先拆分成“一”、“大”。
“失”字,优先拆分成“丿”、“夫”。
“来”字,可拆分成“未”、“丷”,也可拆分成“一”、“米”,前者“夹>交”优先。
“𣎵”字,优先拆分成“屮”、“八”。
“𠫩”字,优先拆分成“厶”、“中”、“八”。
注:为了排除不同字体之间的干扰,“亠”、“䒑”中的“丶”、“丷”结构,一律视为与其下的“一”相粘连而不离散。“百”、“面”、“夏”、“夒”等字中的“丆”结构,视为“一”与“丿”相粘连而不离散。
4)笔顺优先。相关联字根之间按笔顺逐一分界的优先,其中连续同形笔画优先取根,如:
“啬”字,上部可拆分成“十”、“䒑”,也可拆分成“土”、“丷”,前者符合笔顺优先。
“竒”字,优先拆分成“立”、“口”、“亅”。
“串”字,优先拆分成“口”、“中”。
“釜”字,下部优先拆分成“干”、“䒑”。
“𤤃”字,右部可拆分成“丨”、“三”,也可拆分成“ㅑ”、“一”,前者连续同形“三横”优先取根。
5)成字优先。相关联部分拆分出成字字根的优先。成字字根的认定,以字根表中有音字根为准(含“一”、“乙”),如:
“昜”字,中部可拆分成“一”、“勹”,也可拆分成“丆”、“𠃌”,前者为成字字根优先。
“㒸”字,优先拆分成“丷”、“豕”。
“乆”字,优先拆分成“𠃋”、“人”。
“丈”字,优先拆分成“一”、“乂”。
6)取大优先。相关联字根分界面虽有笔顺交错,但如果局部字根按笔顺独立分界、又不与其他字根相交的,尽可能取大。其他情况下,笔顺靠前的字根尽可能取大。如:
“囬”字,可拆分成“囗”、“ㅒ”,也可拆分成“罒”、“二”,前者符合局部笔顺的字根更大优先。
“井”字,符合“笔顺优先”的拆分有“二”、“”,或者“一”、“廾”,前者的靠前字根更大优先。
“曲”字,可拆分成“日”、“〢”,也可拆分成“囗”、“卄”。后者虽然局部笔顺更大,但因与其他字根相交,不符合优先条件,最终取前者的靠前字根更大优先。
“里”字,可拆分成“甲”、“二”,也可拆分成“日”、“土”,前者的靠前字根更大优先。
“𦮙”字,下部笔画纠缠不清,按取大优先拆分成“屮”、“屮”、“冂”、“冂”。
“百”字,优先拆分成“丆”、“日”。
“逺”字,优先拆分成“土”、“𠂈”、“𰀠”、“辶”。
4、拆分实例
下面举几个汉字拆分的实例,说明汉字拆分的一般过程。
“戢”字,很明显地,左上的“口”与其他结构相分离,因此第一个字根可取“口”。剩余部分可取“耳”,也可取“戈”,因此需要做个预判。如果第二个字根取“耳”,则剩下三个单笔画。而如果字根取“戈”,则剩下部分可继续拆分成两个字根。根据根少优先原则,第二个字根取“戈”。最后的左下部分,由于连续书写的“〢”部件不可拆分,可供选择的拆分方案为“ㅒ”、“一”,或“〢”、“三”。两种拆分方案均满足各项优先级条件,最终以取大优先原则取前者。“戢”字最终拆分成“口”、“耳”、“ㅒ”、“一”。
“叢”字,同样地第一个字根可取“业”,最后一个字根可取“又”。中间部分包含“⺷”和“耳”,但由于两者有共用笔画,只能取其一而将剩余部分继续拆分。可供选择的拆分方案有“⺷”、“ㅒ”、“一”,或“䒑”、“十”、“耳”。而前者“ㅒ”、“一”字根相交,因此优先取后者。“叢”字最终拆分成“业”、“䒑”、“十”、“耳”、“又”。
5、“旋转字”及“镜像字”
有些汉字存在与常规部件成旋转180°、或者左右镜像关系的特殊结构,如:“𠄏”、“𠄔”、“𢨋”、“臦”、“𫸪”、“𨺅”、“𨙨”等。
1)对于“旋转字”中的特殊结构,按旋转180°后的形态处理。如:
“𠄔”字,按“予”字处理,即拆分成“龴”、“乛”、“亅”。
“𢨋”字,按上下两个“或”字处理,即拆分成“戈”、“口”、“一”、“戈”、“口”、“一”。
“𮗙”字,拆分成“見”、“鬼”。
“𧹂”字,拆分成“虍”、“几”、“虍”、“几”、“貝”。
2)对于“镜像字”中的特殊结构,一般仍按其所展现的形态处理。如:
“臦”字,拆分成“”、“臣”。
“𢍴”字,拆分成“”、“𦣞”、“廾”。
“𨙨”字,正常拆分为“口”、“匚”、“丨”、“”。
“𫸪”字,拆分成“弓”、“丂”、“一”、“㇂”。
“𨺅”字,拆分成“丿”、“”、“㇏”、“”。