20年磨一剑,造就3000年中国文字长城!这个高校团队用智能型数据库传承“冷门绝学”

来源:上海教育新闻网

作者:刘时玉

时间:2021-05-31 10:02:33


“刺史”的“刺”,中国古代书法大家颜真卿竟然写成“刾”?对于最近网上这样一个热议话题,华东师范大学的老师通过运用“智能检索中国文字数据库”给同学上了一堂特别的语言文字课。

据了解,华东师范大学中国文字研究与应用中心20年来坚持运用数字化、智能化手段开展“冷门绝学”专业的学科交叉研究,并致力于拓展该研究的国际合作协同创新。近日,该中心举行“华东师范大学‘冷门绝学’专业‘新文科’建设成果发布会”,主要推出智能型中国文字数字平台、冷门绝学专业树德育人数字化智能助学系统、冷门绝学专业“新文科”建设的国际化协同研究和世界话语体系三个系列成果。

打造“智能型中国文字数字平台”

近日,一个书法家认为“颜卿写错了字”的事件在网上发酵,引起华东师大“古文字学(强基计划)”同学探讨的兴趣:“刺史”的“刺”,颜卿为什么写成“刾”?

于是,华东师大老师抓住这个契机,运用“智能检索中国文字数据库”给同学上了这样一堂课:首先,引导同学进入“石刻智能检索数据库”,运用该数据库嵌入的“石刻疑难字形智能识别器”识别唐代文字中貌似“刾”的那个字,识别结果,让同学们了解,当时的“刺”大概率写成“刾”,而这个“刾”中的“夹”,就是“朿”的自秦汉文字以来的变形。继而又引导同学进入“甲骨文智能检索数据库,运用其嵌入“甲骨文智能镜”识别甲骨文的“朿”,进入“商周金文智能检索数据库,运用其嵌入“商周金文智能镜” 识别商周金文的“朿”,进入“战国楚简文字智能检索数据库”,运用其嵌入的“楚简文字智能识别器”识别战国楚简的“朿”。于是,同学们了解到:“朿”字之形,取象于“树木的刺芒”就是先秦时代的“刺”。

image.png

“刺史”的“刺”,颜卿为什么写成“刾”


这次教学中发挥大作用的各个数据库,就是文字中心近日研发成功的“智能型中国文字数字平台”数据库系列中几个种类。该“中国文字数字平台”以古文字及历代出土实物文字资料的数字化为目标,自上世纪90年代后期开始启动,其建设成果曾多次实现海内外首创性突破,如2003年,推出首个先秦古文字数据库的正式出版成果系列《商周金文数字化处理系统》和《战国楚文字数字化处理系统》;2019年正式发布古文字智能识别工具“商周金文智能镜”。在此基础上,2020年以来,文字中心又相继开发了多种出土文字智能图像识别系统,并完成图像识别工具与数据库的有效结合,创建了智能型古文字数字平台。

这一突破,对古文字图像识别而言,营造了最理想的“样本库”,为进一步研发和技术突破打造了孵化平台。对出土古文字文字数据库而言,消除了两个盲点:一是不识之字数据库检索查询盲点。去除了数据库使用者的专业知识门槛,大大提升了数据库的社会服务功能;二是图像载体材料的计算机自动识别盲点。初步实现数字平台中图片载体材料与字符集载体材料的自动数字关联,进而营造了古文字资料大数据生成和机器学习的环境,为各种研究专题的智能化手段介入创造了条件。

除了用图像识别技术将中国文字数字平台提升到“智能化”级别以外,该数字平台还具有多方面创新功能。首先是各断代各类型出土实物文字资料的全覆盖。目前某些海内外相关大学研究机构虽然也有此类网络数据库,但材料覆盖都止于某个别断代或材料类型。“智能型中国文字数字平台”所包含的文字材料覆盖了自殷商甲骨到明清文字整个汉字发展史的各种时段的各种类型;先秦部分,基本囊括目前已公布的资料;先秦以后汇集了各时段主要代表性材料。因此数字平台堪称电子版“字海”,可以提供覆盖整个汉字发展史的相关文字信息的定量性检索查询。

在全字符检索查询方面也实现了新的突破。据了解,文字中心研发团队通过海量文献用字的逐一整理,研发了完整的出土实物文字字符集标准体系,保证了数据库所用所有字符与标准码位的一字一码精确对应,保证了数据库各种资料都处于有效的数字化处理的范围内。由此,“中国文字智能检索数据库”也就成为唯一一种可全字符(集外与集内字;楷字与原形字;整字与偏旁)检索的出土文字数据库。

另外,此举也促进了多层次深度加工与专题性数据库系列的形成。据了解,受制于出土古文字资料数字化高度的复杂性,迄今的出土文字网络数据库对所收材料的加工程度不高,检索功能比较单一,或者通过相关出版物编号检索古文字图像材料,或者通过部分的集内字检索释文的辞例。相对局限的功能降低了数据库对于研究和应用的支持力度。针对这一共性问题,研究团队对应各个时段中国文字的研究与应用需要,进行充分的数字化整理与深度加工。实现原始资料与考释研究信息与全面关联,特别是注重古文字考释,跟踪古文字考释最新进展,并以字为对象关联考释信息。另外,完成或部分完成出土文献语料在语言、文字与文化属性等方面的系统标注,包括:字义注释、语音标记、义类分析、偏旁标注、古今释义等,实现数据库内部资源全面数字系联贯通。进而形成前所未有的“考释”“通假”“偏旁”“字体分类”“义类分析”等专题数据库系列,大大提升了数字平台的专业支撑力。

构建“冷门绝学专业树德育人数字化智能助学系统”

近年来,配合国家教育发展和文化建设战略,满足社会应用层次的各种需求,依托“中国出土文字数字平台”,创辟“强基计划智能助学系统”“汉字美育智能资源库”等以“树德育人”为目标专题数字系统。

2020年,因为“强基计划”的落地,“古文字学”前所未有地作为中文系本科的一个专业方向出现,因而带来教学上的一些新的问题:“古文字学”是一个特别讲究积累的学科,学习过程相对漫长,而入选“强基计划(古文字学)”的考生,总体来说对应这个专业的知识积累也就是高中语文的功底,要在短短四年里完成“古文字学”的学业,无疑是一种前所未有的挑战。“古文字学”作为具有悠久传统的学科,因当今文字处理手段进入数字化阶段而获得的全新的发展机遇。在人才培养方面,尤其能够获得来自数字化、智能化的革命性教学手段支持。“强基计划(古文字学)”实施过程中遇到的困难,很大程度上可以通过数字化手段的应用而得到化解。创建具有问题针对性的助学数字平台是提升教学效率,缩短人才培养周期切实可行的方略。

“强基计划智能助学系统”,由不同层次支撑属性的系列数据库构成:“古文字释读工具书检索数据库”,初学者最需要的入门工具;“集释专题数据库”,帮助学习者把握古文字释读史的信息,从而形成古文字学基本积累;“义类专题数据库”,提升一手文献释读的效率;“通假专题数据库”“偏旁专题数据库”,则在深层助学的基础上,具有更多专题研究的导向。“古文字智能图像识别”,打通古文字学习者与古文字数据库之间的人机障碍,并营造古文字智能化研究的环境;“虚拟仿真:走进商周古文字”,帮助“强基”同学成功“穿越”到殷商时代的社会文化环境中,运用虚拟仿真技术,超越传统教学模式,将文化、历史、思想等多方面知识点融入到商周古文字三维场景的讲解过程中,为学生构建完整的知识体系,提升数字化平台的“强基”助学效应。

此外,瞄准当前历代汉字网络资源的空白,“汉字美育智能资源库”提供如下两个方面的网络检索服务:一是提供历史汉字中最富美饰性的种类,如殷商族名文字、金文鸟虫书、经典石刻、玺印、封泥、瓦当等材料的检索。二是提供从殷商甲骨文开始的各类文字的字体(书法风格)分类的检索。所有检索结果,都以集成性资料为范围,呈现其定量数据,以实现精细化反映汉字美育资源的历史真实,同时对于汉字文物、艺术品的鉴定,以及以历史汉字材料为资源的文创,提供坚实的资料支持。

该本数据库建设可以满足多层次使用对象,对于文字学专业研究、相关历史考古哲学研究、书法艺术研究及创作、社会文创领域咨询检索、初学者的基础知识学习等,都是一种前所未有的学习和研究资料获取平台。

image.png

推动建设“冷门绝学专业国际化协同研究和世界话语体系”

围绕新时代国家文化发展战略,根据中国文字研究新文科建设实际需要,华东师范大学中国文字研究与应用中心积极构建国际化的世界表意文字文化研究合作体系和中国文字文化话语有效传播体系。

据介绍,世界汉字学会(The World Association of Chinese Characters Studies),是一个具有广泛国际代表性的学术组织,于2012年12月在韩国注册,来自中国、美国、法国、德国、英国、韩国、越南、新加坡等国家地区的代表组建了理事会,华东师范大学文字基地主任臧克和教授连续被理事会推举为学会会长。学会原则上每年召开一次学术年会,自成立至今,已形成一个有连续编年编号的模式,目前已成功举办了七届年会,在汉字文化圈主要国家地区和欧美主要汉学重镇产生广泛影响。

华东师范大学中国文字研究与应用中心主办《Journal of Chinese Writing Systems(中国文字)》国际期刊,是全球唯一以表意文字为核心研究内容的国际期刊,2017年7月由文字基地创办。JCWS至今已连续出版15期,其中包括6期专刊,分别特邀来自韩国、越南、中国特定研究领域的知名专家作为特约主编,围绕当前国际学界比较关注的热点问题组稿完成。2020年第4期为“大数据与古文字智能检索”专刊,发布一批基地学科交叉探索的理论成果。JCWS创刊两年时间,即已被全球最大的同行评议文献摘要与科研信息引用数据库—Scopus检索系统收录,表明其作为世界范围内唯一调查研究各类表意文字结构、使用、历史及AI时代表意文字认知运用的学术园地这一特色已逐渐得到国际关注和认可,并推动汉字学成为世界性的学科。

另外,华东师范大学中国文字研究与应用中心还主编了《The SAGE Handbook of Chinese Writing Systems(文字学科手册)》。作为全球第一本文字学科手册,《The SAGE Handbook of Chinese Writing Systems》即将以中英文两种语言分别在国内外推出,实现中国文字学科理论体系的外译传播,提升中国文字学科的国际影响力,为JCWS进入国际人文社科权威学术期刊行列创造条件。

据介绍,围绕“新时代”国家文化发展战略,贯彻新文科建设理念,华东师范大学中国文字研究与应用中心将上述多层级平台互相配合,架构中国文字文化学术世界话语有效传播体系,共同带动以汉字为代表的世界表意文字文化研究国际化推广和发展,作为讲好中国故事的工具,中国书写的影响力进一步提升,坚定文化自信,助力冷门绝学专业走出去,助力中国文化走出去,真正将中国文字文化学术世界话语权落到实处。

责任编辑:刘时玉

优秀班主任的成长秘籍,请点击关注

优秀班主任的成长秘籍,请点击关注

新闻网微信
Top