高质量的古汉语开源数据集

古汉语词义标注语料库

https://github.com/iris2hu/ancient_chinese_sense_annotation

该项目针对常用古汉语单音节词进行了词义级别的知识整理和语料标注,开源语料库收录315个单音节词,包含5.8万条标注数据,规模超过百万字。

古汉语通假字资源库

https://github.com/frederick-wang/tongjiazi-resources

该项目构建并开源了一个多维度的通假字资源库,包括语料库、知识库和评测数据集三个子库:

• 语料库:收录11000余条包含通假现象详细标注的语料。

• 知识库:以汉字为节点,通假和形声关系为边,从字音、字形、字义多个角度对通假字与正字的属性进行加工,共包含4185个字节点和8350对关联信息。

• 评测数据集:面向古汉语信息处理需求,支持通假字检测和正字识别两个子任务的评测,收录评测数据19678条。

古汉语典故资源库

https://github.com/QSJDAMTX/Ancient-Chinese-Allusion-Resource-Database

该项目旨在提供古汉语典故相关数据,以支持计算机自动分析古籍文本中的用典现象,并为人文学科研究及语文教育提供助力,包括两大核心资源:

• 典故知识库:收录了2.3万个典形,结构化存储了典故的源流关系、释义及例句。

• 典故标注语料库:包含3万余条标注数据,包括所用典故、典形位置及语料出处等详细信息。