CMHG: Ein Datensatz und Benchmark für die Überschriftengenerierung von Minderheitensprachen in China
CMHG: A Dataset and Benchmark for Headline Generation of Minority Languages in China
September 12, 2025
papers.authors: Guixian Xu, Zeli Su, Ziyin Zhang, Jianing Liu, XU Han, Ting Zhang, Yushuang Dong
cs.AI
papers.abstract
Minderheitensprachen in China, wie Tibetisch, Uigurisch und traditionelles Mongolisch, stehen aufgrund ihrer einzigartigen Schriftsysteme, die von internationalen Standards abweichen, vor erheblichen Herausforderungen. Diese Diskrepanz hat zu einem gravierenden Mangel an relevanten Korpora geführt, insbesondere für überwachte Aufgaben wie die Überschriftengenerierung. Um diese Lücke zu schließen, stellen wir einen neuartigen Datensatz vor, Chinese Minority Headline Generation (CMHG), der 100.000 Einträge für Tibetisch sowie jeweils 50.000 Einträge für Uigurisch und Mongolisch umfasst, die speziell für Aufgaben der Überschriftengenerierung kuratiert wurden. Zusätzlich schlagen wir einen hochwertigen Testdatensatz vor, der von Muttersprachlern annotiert wurde und als Benchmark für zukünftige Forschungen in diesem Bereich dienen soll. Wir hoffen, dass dieser Datensatz eine wertvolle Ressource für die Weiterentwicklung der Überschriftengenerierung in chinesischen Minderheitensprachen darstellt und zur Entwicklung verwandter Benchmarks beiträgt.
English
Minority languages in China, such as Tibetan, Uyghur, and Traditional
Mongolian, face significant challenges due to their unique writing systems,
which differ from international standards. This discrepancy has led to a severe
lack of relevant corpora, particularly for supervised tasks like headline
generation. To address this gap, we introduce a novel dataset, Chinese Minority
Headline Generation (CMHG), which includes 100,000 entries for Tibetan, and
50,000 entries each for Uyghur and Mongolian, specifically curated for headline
generation tasks. Additionally, we propose a high-quality test set annotated by
native speakers, designed to serve as a benchmark for future research in this
domain. We hope this dataset will become a valuable resource for advancing
headline generation in Chinese minority languages and contribute to the
development of related benchmarks.