CMHG : Un ensemble de données et un benchmark pour la génération de titres dans les langues minoritaires de Chine

Résumé

Les langues minoritaires en Chine, telles que le tibétain, l'ouïghour et le mongol traditionnel, rencontrent des défis importants en raison de leurs systèmes d'écriture uniques, qui diffèrent des normes internationales. Cette divergence a entraîné un manque criant de corpus pertinents, en particulier pour les tâches supervisées comme la génération de titres. Pour combler cette lacune, nous présentons un nouveau jeu de données, Chinese Minority Headline Generation (CMHG), qui comprend 100 000 entrées pour le tibétain, et 50 000 entrées chacune pour l'ouïghour et le mongol, spécialement conçues pour les tâches de génération de titres. De plus, nous proposons un ensemble de test de haute qualité annoté par des locuteurs natifs, destiné à servir de référence pour les recherches futures dans ce domaine. Nous espérons que ce jeu de données deviendra une ressource précieuse pour faire progresser la génération de titres dans les langues minoritaires chinoises et contribuera au développement de benchmarks connexes.

English

Minority languages in China, such as Tibetan, Uyghur, and Traditional Mongolian, face significant challenges due to their unique writing systems, which differ from international standards. This discrepancy has led to a severe lack of relevant corpora, particularly for supervised tasks like headline generation. To address this gap, we introduce a novel dataset, Chinese Minority Headline Generation (CMHG), which includes 100,000 entries for Tibetan, and 50,000 entries each for Uyghur and Mongolian, specifically curated for headline generation tasks. Additionally, we propose a high-quality test set annotated by native speakers, designed to serve as a benchmark for future research in this domain. We hope this dataset will become a valuable resource for advancing headline generation in Chinese minority languages and contribute to the development of related benchmarks.