CMHG: Un Dataset e Benchmark per la Generazione di Titoli nelle Lingue Minoritarie della Cina
CMHG: A Dataset and Benchmark for Headline Generation of Minority Languages in China
September 12, 2025
Autori: Guixian Xu, Zeli Su, Ziyin Zhang, Jianing Liu, XU Han, Ting Zhang, Yushuang Dong
cs.AI
Abstract
Le lingue minoritarie in Cina, come il tibetano, l'uiguro e il mongolo tradizionale, affrontano sfide significative a causa dei loro sistemi di scrittura unici, che differiscono dagli standard internazionali. Questa discrepanza ha portato a una grave carenza di corpora rilevanti, in particolare per task supervisionati come la generazione di titoli. Per colmare questa lacuna, introduciamo un nuovo dataset, Chinese Minority Headline Generation (CMHG), che include 100.000 voci per il tibetano e 50.000 voci ciascuna per l'uiguro e il mongolo, specificamente curato per task di generazione di titoli. Inoltre, proponiamo un set di test di alta qualità annotato da parlanti nativi, progettato per servire come benchmark per future ricerche in questo ambito. Speriamo che questo dataset diventi una risorsa preziosa per avanzare la generazione di titoli nelle lingue minoritarie cinesi e contribuire allo sviluppo di benchmark correlati.
English
Minority languages in China, such as Tibetan, Uyghur, and Traditional
Mongolian, face significant challenges due to their unique writing systems,
which differ from international standards. This discrepancy has led to a severe
lack of relevant corpora, particularly for supervised tasks like headline
generation. To address this gap, we introduce a novel dataset, Chinese Minority
Headline Generation (CMHG), which includes 100,000 entries for Tibetan, and
50,000 entries each for Uyghur and Mongolian, specifically curated for headline
generation tasks. Additionally, we propose a high-quality test set annotated by
native speakers, designed to serve as a benchmark for future research in this
domain. We hope this dataset will become a valuable resource for advancing
headline generation in Chinese minority languages and contribute to the
development of related benchmarks.