CMHG: Набор данных и эталон для генерации заголовков на языках малых народов Китая
CMHG: A Dataset and Benchmark for Headline Generation of Minority Languages in China
September 12, 2025
Авторы: Guixian Xu, Zeli Su, Ziyin Zhang, Jianing Liu, XU Han, Ting Zhang, Yushuang Dong
cs.AI
Аннотация
Языки меньшинств в Китае, такие как тибетский, уйгурский и традиционный монгольский, сталкиваются с серьёзными трудностями из-за их уникальных систем письма, которые отличаются от международных стандартов. Это несоответствие привело к острой нехватке соответствующих корпусов, особенно для задач с учителем, таких как генерация заголовков. Чтобы восполнить этот пробел, мы представляем новый набор данных, Chinese Minority Headline Generation (CMHG), который включает 100 000 записей для тибетского языка и по 50 000 записей для уйгурского и монгольского языков, специально подготовленных для задач генерации заголовков. Кроме того, мы предлагаем высококачественный тестовый набор, аннотированный носителями языков, который призван стать эталоном для будущих исследований в этой области. Мы надеемся, что этот набор данных станет ценным ресурсом для продвижения генерации заголовков на языках меньшинств Китая и внесёт вклад в развитие связанных эталонов.
English
Minority languages in China, such as Tibetan, Uyghur, and Traditional
Mongolian, face significant challenges due to their unique writing systems,
which differ from international standards. This discrepancy has led to a severe
lack of relevant corpora, particularly for supervised tasks like headline
generation. To address this gap, we introduce a novel dataset, Chinese Minority
Headline Generation (CMHG), which includes 100,000 entries for Tibetan, and
50,000 entries each for Uyghur and Mongolian, specifically curated for headline
generation tasks. Additionally, we propose a high-quality test set annotated by
native speakers, designed to serve as a benchmark for future research in this
domain. We hope this dataset will become a valuable resource for advancing
headline generation in Chinese minority languages and contribute to the
development of related benchmarks.