ChatPaper.aiChatPaper

CMHG: Un conjunto de datos y punto de referencia para la generación de titulares en lenguas minoritarias de China

CMHG: A Dataset and Benchmark for Headline Generation of Minority Languages in China

September 12, 2025
Autores: Guixian Xu, Zeli Su, Ziyin Zhang, Jianing Liu, XU Han, Ting Zhang, Yushuang Dong
cs.AI

Resumen

Las lenguas minoritarias en China, como el tibetano, el uigur y el mongol tradicional, enfrentan desafíos significativos debido a sus sistemas de escritura únicos, que difieren de los estándares internacionales. Esta discrepancia ha llevado a una grave falta de corpus relevantes, particularmente para tareas supervisadas como la generación de titulares. Para abordar esta brecha, presentamos un nuevo conjunto de datos, Chinese Minority Headline Generation (CMHG), que incluye 100,000 entradas para el tibetano y 50,000 entradas cada una para el uigur y el mongol, específicamente curadas para tareas de generación de titulares. Además, proponemos un conjunto de pruebas de alta calidad anotado por hablantes nativos, diseñado para servir como referencia para futuras investigaciones en este ámbito. Esperamos que este conjunto de datos se convierta en un recurso valioso para avanzar en la generación de titulares en lenguas minoritarias chinas y contribuya al desarrollo de benchmarks relacionados.
English
Minority languages in China, such as Tibetan, Uyghur, and Traditional Mongolian, face significant challenges due to their unique writing systems, which differ from international standards. This discrepancy has led to a severe lack of relevant corpora, particularly for supervised tasks like headline generation. To address this gap, we introduce a novel dataset, Chinese Minority Headline Generation (CMHG), which includes 100,000 entries for Tibetan, and 50,000 entries each for Uyghur and Mongolian, specifically curated for headline generation tasks. Additionally, we propose a high-quality test set annotated by native speakers, designed to serve as a benchmark for future research in this domain. We hope this dataset will become a valuable resource for advancing headline generation in Chinese minority languages and contribute to the development of related benchmarks.
PDF12September 15, 2025