ChatPaper.aiChatPaper

CMHG: 中国少数民族言語における見出し生成のためのデータセットとベンチマーク

CMHG: A Dataset and Benchmark for Headline Generation of Minority Languages in China

September 12, 2025
著者: Guixian Xu, Zeli Su, Ziyin Zhang, Jianing Liu, XU Han, Ting Zhang, Yushuang Dong
cs.AI

要旨

中国の少数民族言語、例えばチベット語、ウイグル語、伝統的モンゴル語は、国際標準とは異なる独自の書記体系を持つため、大きな課題に直面しています。この差異により、特に見出し生成のような教師ありタスクにおいて、関連するコーパスが深刻に不足しています。このギャップを埋めるため、私たちは新しいデータセット「中国少数民族見出し生成(CMHG)」を導入しました。このデータセットは、チベット語用に10万エントリ、ウイグル語とモンゴル語用にそれぞれ5万エントリを含み、見出し生成タスクに特化して作成されています。さらに、ネイティブスピーカーによる注釈付きの高品質なテストセットを提案し、今後の研究のベンチマークとして活用されることを目指しています。このデータセットが、中国少数民族言語における見出し生成の進展に貢献し、関連するベンチマークの開発に寄与することを期待しています。
English
Minority languages in China, such as Tibetan, Uyghur, and Traditional Mongolian, face significant challenges due to their unique writing systems, which differ from international standards. This discrepancy has led to a severe lack of relevant corpora, particularly for supervised tasks like headline generation. To address this gap, we introduce a novel dataset, Chinese Minority Headline Generation (CMHG), which includes 100,000 entries for Tibetan, and 50,000 entries each for Uyghur and Mongolian, specifically curated for headline generation tasks. Additionally, we propose a high-quality test set annotated by native speakers, designed to serve as a benchmark for future research in this domain. We hope this dataset will become a valuable resource for advancing headline generation in Chinese minority languages and contribute to the development of related benchmarks.
PDF12September 15, 2025