中文EN
【重大成果】构建藏文古文献语法标注语料库——信息技术推动古文献研究
2026-02-13 来源:社科院专刊 总第835期 作者:龙从军
分享到:

  龙从军(民族学与人类学研究所)

  藏文传统研究多聚焦共时层面的系统描写,然而在深度处理现代藏语信息过程中,诸多共时现象的解释必须探索其历时来源和发展脉络。现代藏语中语法范畴的表达方式、句法结构的组织原则以及词汇语义的演变轨迹,都需要在历史文献中寻求解释依据。这种认识促使研究视角发生转变,从单纯的共时描写转向历时探索。基于这一原因,中国社会科学院民族学与人类学研究所研究团队利用自然语言处理技术开展藏文古文献全文隔行标注和语料库建设,致力于构建一个能够支撑深度历史语言学研究的全文检索语料库,在此基础上形成了《藏文古文献〈拔协〉文本标注与语法研究》一书。

  机器辅助的多层级标注方法

  自2011年启动藏文古文献全文数据库建设以来,研究团队在方法论层面取得重要突破。一是“四行隔行对照”标注框架的设计。具体而言,藏文原文行完整保留文献的原始形态,确保文献真实性;拉丁转写行采用国际通行的转写标准,保障文本的国际可读性;语法标注行构建多层级的标签体系,实现语法信息的系统化呈现;通用语译文行则扫除非母语人使用古藏文材料的文字障碍。这种结构设计既最大限度地保持了文献的原始性,又显著增强了文本的可读性。

  二是在技术实现层面,研究团队开发的专用标注平台采用了“规则驱动+专家校验”的双重保障机制。平台内置的自动分词模块融合了基于词典的匹配算法和基于统计的序列标注模型,既保证了分词的准确性,又充分考虑到古藏语的特殊表达习惯。特别是团队提出的“混合标注策略”体现了类型学视野与历史语言学方法的有机结合。在实词层面,采用功能对等的翻译原则;在虚词和语法标记层面,运用国际通用的语法标签体系;针对文献特有的语法现象,设计了专门的标注规范。这种分层标注方法既确保了标注的系统性,又很好地保留了文献的语言特色。

  全样本隔行标注后的语法描写

  基于全文本进行系统性标注的观察方法,能够超越个别例证的局限,从整体上把握语法标记的使用规律,为专书语法研究提供了扎实的数据基础。在句法研究层面,对古藏语句法结构进行整体性考察。通过分析大量真实的句法实例,揭示专书中句法结构的使用特点和分布规律,其标注方法和分析框架也可为其他藏文古籍的语法研究提供参考。

  专书语法标注的价值不仅在于对单部文献语言特征的揭示,更在于为历史语言比较研究奠定了基础。当多部不同时期藏文文献完成系统的语法标注后,就能够通过对比分析,客观地观察藏语语法现象的历史演变轨迹。这种基于多部专书语料库的历时比较,可为藏语语法史研究提供可靠证据,推动藏语历史语言学向更系统、更深入的方向发展。这种研究路径的优势在于,既保持了专书语法研究的深度,又通过多部文献的关联比较拓展研究的广度。每一部经过系统标注的专书,都成为藏语历史语言研究的一个重要坐标点,多个坐标点连接在一起,就能勾勒出语言发展的清晰轨迹。

  古文献研究范式的转型

  研究的学术价值也体现在方法论层面的创新上。这一标注体系的建立不仅适用于《拔协》研究,更为整个藏文历史文献的数字化处理提供了可复用的方法论框架。这一框架实现了传统文献学方法与现代计算语言技术的深度融合,为数字人文研究提供了新范式。这种融合在实际应用过程中,不仅需要技术层面的突破,更需要理论层面的创新,特别是在处理古文献特有的语言现象时,需要建立专门的标注规范和处理流程。

  研究还有力推动了藏语历史语言学研究范式转型。传统研究主要依赖选例分析,而全样本研究方法则建立了基于实证数据的分析模式。这种转型提高了研究的科学性。研究团队开发的半自动标注平台和训练的初始模型,标志着藏文古文献研究实现了从“个案处理”向“规模生产”的重要转变。这一转变的深层意义在于,为突破冷门绝学领域的研究瓶颈提供了可行的技术路径,为类似研究提供了可借鉴的模式。

  关注新的学术增长点

  研究体现了文献学、语言学和计算科学多学科的深度融合。这种融合不仅拓宽了研究视野,也催生了新的学术增长点。传统人文学科与现代信息技术的深度对话,是推动学术创新的重要动力。特别是在处理藏文古文献这样的特殊语料时,既需要充分尊重文献学传统,又需要大胆运用现代技术手段,这种平衡需要研究者在实践中不断探索和调整。不过,研究只是一个开端,未来还需要进一步完善标注体系的理论基础,特别是在语义和语用层面需要建立更精细的标注规范;进一步扩大文献的时空覆盖范围,建立更具代表性的历时语料库。不同时期、地区的藏文文献呈现出不同文献特征,这就需要构建更加全面的语料库体系。

  古文献研究还要特别关注数字人文领域的最新发展,引入自然语言处理的新技术、新方法。特别是在深度学习、知识图谱等前沿领域,存在着与传统研究方法相结合的广阔空间。这种结合不仅能提升研究效率,更可能带来研究范式的根本性变革。如基于知识图谱的文献关联分析等方法,可能为藏文古文献研究开辟新路径。

责任编辑:刘娟(报纸)赛音(网络)