Китайский SimpleQA: Оценка фактичности на китайском языке для крупных языковых моделей
Chinese SimpleQA: A Chinese Factuality Evaluation for Large Language Models
November 11, 2024
Авторы: Yancheng He, Shilong Li, Jiaheng Liu, Yingshui Tan, Hui Huang, Weixun Wang, Xingyuan Bu, Hangyu Guo, Chengwei Hu, Boren Zheng, Xuepeng Liu, Dekai Sun, Wenbo Su, Bo Zheng
cs.AI
Аннотация
Новые показатели оценки LLM важны для соответствия быстрому развитию крупных языковых моделей (LLM). В данной работе мы представляем Chinese SimpleQA, первый всесторонний китайский бенчмарк для оценки способности языковых моделей отвечать на короткие вопросы на основе фактических данных, и Chinese SimpleQA в основном имеет пять характеристик (т.е. китайский, разнообразный, высококачественный, статический, легкий для оценки). Конкретно, в первую очередь мы сосредотачиваемся на китайском языке по 6 основным темам с 99 разнообразными подтемами. Во-вторых, мы проводим комплексный процесс контроля качества для достижения высококачественных вопросов и ответов, где референсные ответы статичны и не могут быть изменены со временем. В-третьих, в соответствии с SimpleQA, вопросы и ответы очень краткие, и процесс оценки легко осуществим на основе API OpenAI. Основываясь на Chinese SimpleQA, мы проводим всестороннюю оценку способностей к фактическому ответу существующих LLM. Наконец, мы надеемся, что Chinese SimpleQA сможет помочь разработчикам лучше понять китайские способности к фактическому ответу и способствовать развитию фундаментальных моделей.
English
New LLM evaluation benchmarks are important to align with the rapid
development of Large Language Models (LLMs). In this work, we present Chinese
SimpleQA, the first comprehensive Chinese benchmark to evaluate the factuality
ability of language models to answer short questions, and Chinese SimpleQA
mainly has five properties (i.e., Chinese, Diverse, High-quality, Static,
Easy-to-evaluate). Specifically, first, we focus on the Chinese language over 6
major topics with 99 diverse subtopics. Second, we conduct a comprehensive
quality control process to achieve high-quality questions and answers, where
the reference answers are static and cannot be changed over time. Third,
following SimpleQA, the questions and answers are very short, and the grading
process is easy-to-evaluate based on OpenAI API. Based on Chinese SimpleQA, we
perform a comprehensive evaluation on the factuality abilities of existing
LLMs. Finally, we hope that Chinese SimpleQA could guide the developers to
better understand the Chinese factuality abilities of their models and
facilitate the growth of foundation models.Summary
AI-Generated Summary