在我国的广袤土地上,56个民族孕育的百余种语言如同星罗棋布的瑰宝,构筑起独特的语言文化格局。其中约30个民族拥有本民族文字,其余则依托口耳相传延续文脉。但这些珍贵遗产正面临“传承困境”:新疆的回鹘文古籍,因字形斑驳、排版特殊,学者需耗时数月逐字誊录;云南少数民族的口传史诗,仅靠老艺人代代相传,一旦失传便无迹可寻;大量多民族文种混合排版文献,因书写方向、字形结构差异,只能依赖人工翻查,数字化进程举步维艰。这些现实难题让民族语言文化资源长期“藏在深闺人未识”。
为摆脱这一困境,中国社会科学院民族语言文化行为实验室(以下简称“实验室”)锚定“让民族语言文化资料真正‘用起来’”的核心目标,探索出一条清晰可行的技术实践路径。“先把分散在古籍、碑刻、期刊、词典、田野录音录像等材料中的信息数字化,再把能被检索、核查的结构化内容沉淀为知识,用智能技术提升处理效率,最后把成果以平台和工具的形式服务于学术研究、文化传承和民族地区的实际工作。”实验室主管领导、中国社会科学院民族学与人类学研究所党委书记丁赛告诉记者,这条路径不仅破解了长期存在的技术难题,更推动民族语言文化研究迈入智能化发展的快车道。
破界融合:
构建人文牵引技术研究新范式
实验室的探索并非一蹴而就,其前身可追溯至1993年成立的语音学与计算语言学研究室,2015年更名为“民族语言实验研究室”,2023年正式启用现名。近两年来,实验室以“人机共享数据资源体系”为基石,运用人工智能技术突破知识关联瓶颈,依托自然科学仪器开展语言文化和认知行为实验,为民族语言文化保护与铸牢中华民族共同体意识研究提供了系统性支撑,走出了一条区别于传统研究的创新之路。
在研究范式上,实验室开创性确立“人文问题逆向牵引技术”的核心路径,打破了国内常见的“技术驱动”交叉模式的局限。“我们从不把人工智能当作现成工具简单套用,而是先聚焦真问题。”实验室主任、中国社会科学院民族学与人类学研究所研究员龙从军告诉记者,团队始终围绕民族语言保护、文化遗产数字化、中华民族共同体心理机制等人文核心命题,倒逼技术进行针对性适配与创新性突破。这种“问题导向”的研究机制,让科研工作既紧密对接国家战略需求,又能直接丰富语言学、民族学、心理学等学科的理论体系,实现了技术价值与学术价值的同频共振、双向赋能。
在技术体系上,实验室打造了具有高学术门槛的定制化解决方案。团队研究对象自带“特殊性”:多民族语言普遍存在“样本少、写法杂”的困境,唐卡、民族建筑等文化符号缺乏标准化表征,多源异构数据格式繁杂、难以整合。“这些特性让通用技术模型完全‘水土不服’,必须开展技术再创造。”中国社会科学院民族学与人类学研究所副研究员安波坦言,这项工作不仅要求团队成员具备深厚的人工智能、大数据处理等技术积累,更需对研究客体的语言系属、文化内涵、历史背景有精准深刻的理解。“技术+人文”的双重专业要求,让实验室的技术成果具备独特的竞争力。
在综合交叉能力上,实验室构建了全链条闭环技术体系,实现了系统性突破。“国内学术界虽有语言识别、心理测量等单一方向的交叉研究,但缺乏完整的研究基础设施。”据中国社会科学院民族学与人类学研究所研究员孔敬介绍,团队搭建起从“感知层(文字/语音识别)”到“认知层(心理实验)”再到“知识层(知识图谱)”的完整架构,将文、理、工、医等多学科深度嵌入同一研究框架。这种跨学科整合能力让团队能够对“语言—文化—心理—行为”这一复杂系统开展贯通式、多维互证研究,打破了传统研究的碎片化局限。
硕果盈枝:
核心成果破解文化传承难题
基于前期多年的探索积累,实验室通过两年集中建设,形成了多民族文种混排检测与识别体系、基础数据资源库集群、多民族口语语音自动转写技术等一系列标志性成果。这些成果从材料处理、数据支撑、研究方法等多个维度,为民族语言文化传承与学术研究提供了全方位解决方案。
多民族文种混排检测与识别体系的诞生,彻底攻克了混合文字文献数字化的行业难题。在我国历史文化典籍中,大量多民族语言文字混合排版的文献因字形结构、书写方向和排版规则差异显著,长期面临自动化识别难的技术瓶颈,其数字化处理一直是学术界未能有效解决的重要课题。实验室研发了一套完整的多文种检测与识别系统解决方案:通过构建先进的多文种检测模型,实现了对混合排版文献图像的精准文种定位与分类;基于此,系统可完成对不同文种区块的自动化切分与归类。
在完成切分和归类后,实验室利用神经网络技术,开展维、回鹘、满、藏、彝、国际音标、西夏文等字符识别工作,不仅自主掌握了多文种识别模型,还研制出系列工具。“其中,‘龙水识字’OCR识别工具已达十余种,7项成果斩获2024年度国际数字人文奖三等奖。”龙从军告诉记者,针对不同文种的特性,部分识别模型打造了多套版本。针对回鹘文文献的特殊性,团队还创新性提出“识别回鹘文拉丁转写再转换为回鹘文字符”的技术路径,成功破解回鹘文古文献与研究文献的数字化难题。
除了文字处理领域的突破,实验室构建的民族心理认知多模态实验体系,更为铸牢中华民族共同体意识提供了科学研究范式。实验室整合心理学量表、脑电与眼动追踪技术,构建“主观量表—行为表现—生理指标”三位一体框架,让民族心理机制可测可析。“脑电数据印证了特定神经振荡与情绪调节的关联,眼动数据呈现了不同群体社交信息加工的注意分配模式。”中国社会科学院民族学与人类学研究所助理研究员罗薇表示,这些客观证据结合主观幸福感等变量,清晰阐明了积极民族氛围促进社会和谐的作用路径,为做好民族工作提供了坚实的数据支撑。
实验室在口语处理方面取得关键进展。团队采用音素预训练模型,构建智能转写系统,率先开展国家级、省部级非遗口传数据规模化采集标注,完成7种民族语言及方言的识别模型训练,建立覆盖10个重点非遗项目的语音资源库。“经严格测试,所有模型自动转写错误率稳定控制在15%以下,远超传统手工转写效率,标志着我国民族语言语音计算分析实现里程碑式进展。”中国社会科学院民族学与人类学研究所青年学者兰正群认为,这项技术让非遗口传资料、田野访谈的数字化迈入高效时代,不仅为濒危语言保护提供了可推广范式,更奠定了中华民族多元一体语音资源库的核心基础。
在学术研究支撑层面,多民族语言亲疏关系计算方法的开创,为语言谱系研究与民族历史考证提供了量化工具。实验室融合编辑距离算法与贝叶斯分类模型,以核心词汇为分析基础,通过计算音韵对应关系与词汇相似度,实现对语言间遗传距离的精准量化。“在彝语方言分析中,数据证实各地方言的高度系统性对应,为驳斥‘彝语方言独立语言’论提供了科学依据;在藏语支与羌语支比较研究中,我们成功验证西藏东南部分语言的羌语支属性,为民族迁徙与文化互动研究提供了关键语言学实证。”中国社会科学院民族学与人类学研究所青年学者陈雅弘举例分析道。
向新而行:
锚定数智化服务发展蓝图
实验室虽已在多民族语言处理、数据资源建设等领域取得多项成果,但仍面临跨学科高层次人才储备不足的短板,制约了研究的深度融合与创新突破;成果评价体系与经费使用的制度性障碍,影响了科研活力的充分释放;国际化合作与标准体系构建尚处于起步阶段,难以充分对接全球前沿资源等亟待突破的发展瓶颈。对此,实验室立足“从实际问题出发、以数据与工具为基础、以服务与应用为落点”的核心思路,擘画了清晰的发展方向。
推动民族语言从“数字化”向“数智化”升级,是下一阶段核心任务。“过去我们实验室成功解决了‘能不能处理、能不能检索’的基础问题,未来要聚焦‘处理更准、联得更通、用得更方便’。”据安波介绍,针对低资源语言“样本少、写法多、材料杂”的痛点,将扩大训练数据规模与应用场景覆盖,构建可持续的数据生产迭代机制;同时优化语音自动转写技术,让技术真正适配实际需求。
开展基于人工智能的中华民族认同评估与干预机制研究,是实验室服务国家战略的重要举措。依托已搭建的心理量表、脑电和眼动追踪等多模态实验体系,实验室将在更大样本、更丰富场景中构建稳健路径。“我们计划通过本土化、场景化改造,形成适配不同地区、年龄层与教育背景的评估工具,建立规范的数据采集与隐私保护流程。与此同时,围绕积极情绪调节、跨群体理解等设计活动模块,通过‘方案—实施—评估—优化’的闭环试点,沉淀可推广的工作模式,为铸牢中华民族共同体意识提供数据与方法支撑。”中国社会科学院民族学与人类学研究所青年学者薛璐璐如是说。
实验室将打通文献库、语料库、知识库、语音库等分散资源,建立统一检索入口,实现“文本—图片—音频—视频—实体概念”的跨模态深度关联。“让研究者从单一线索就能追溯多维信息,如看到一段彝语口传录音,就能同步调取相关古籍文献、文化背景图谱。”中国社会科学院民族学与人类学研究所博士后周子钦满怀期待地说,我们团队还将推动“数据”向“可行动的知识服务”转化——为古籍整理、词典编纂提供定制化工具,为公共文化服务与教育传播打造易用界面,同时完善数据质控与溯源机制,确保信息真实可核查。
宁夏大学西夏学研究院院长彭向前是实验室数字工具的使用者,他告诉记者,近年来,世界五大藏地的西夏文献陆续公布,为西夏文献数据库建设提供了丰富素材。然而,西夏文录入工作难度极大,学术界普遍采用四角号码输入法,每个西夏字需键入6位数字才能在电脑中显示,直接导致西夏文献数据库建设工作滞后,西夏文献利用率有待提高。中国社会科学院民族语言文化行为实验室研制出十余种“龙水识字”OCR识别工具,其中的龙水西夏文识别软件实现了关键突破:该软件可将图像中的西夏文字与符号自动转换为可自由编辑的文本,替代传统手工录入模式,推动西夏文献数字化工作迈入全文文本化阶段。
从回鹘文古籍的数字重生,到少数民族口传史诗的高效留存;从语言谱系的量化考证,到民族心理的科学解读,实验室的每一步探索,都在为民族语言文化赋能。夯实研究“基础设施”,推动“看得见的材料”转化为“用得上的知识”,再升级为“可落地的服务”,这不仅是实验室的初心使命,更是守护中华文化根脉、促进各民族交往交流交融的关键路径。未来,随着数智化技术的持续迭代、资源壁垒的不断打破,实验室必将让更多民族语言“活起来”“传下去”,为民族地区现代化发展注入动能,让多元一体的中华文明在数字时代绽放更璀璨的光彩。