ChatPaper.aiChatPaper

中国語SimpleQA:大規模言語モデルのための中国語事実性評価

Chinese SimpleQA: A Chinese Factuality Evaluation for Large Language Models

November 11, 2024
著者: Yancheng He, Shilong Li, Jiaheng Liu, Yingshui Tan, Hui Huang, Weixun Wang, Xingyuan Bu, Hangyu Guo, Chengwei Hu, Boren Zheng, Xuepeng Liu, Dekai Sun, Wenbo Su, Bo Zheng
cs.AI

要旨

新しいLLM評価基準は、大規模言語モデル(LLMs)の急速な発展に合わせるために重要です。この研究では、言語モデルの事実性能力を評価するための初の包括的な中国語ベンチマークであるChinese SimpleQAを提案します。Chinese SimpleQAは、主に中国語、多様性、高品質、静的、評価しやすいという5つの特性を持っています。具体的には、まず、99の多様なサブトピックを持つ6つの主要トピックに焦点を当てて中国語を対象とします。次に、高品質な質問と回答を達成するために包括的な品質管理プロセスを実施し、参照回答は静的で時間経過によって変更されないことを特徴とします。さらに、SimpleQAに従い、質問と回答は非常に短く、OpenAI APIに基づいて評価プロセスが容易です。Chinese SimpleQAに基づいて、既存のLLMsの事実性能力について包括的な評価を行います。最後に、Chinese SimpleQAが開発者に彼らのモデルの中国語の事実性能力をより良く理解する手助けをし、基盤モデルの成長を促進することを期待しています。
English
New LLM evaluation benchmarks are important to align with the rapid development of Large Language Models (LLMs). In this work, we present Chinese SimpleQA, the first comprehensive Chinese benchmark to evaluate the factuality ability of language models to answer short questions, and Chinese SimpleQA mainly has five properties (i.e., Chinese, Diverse, High-quality, Static, Easy-to-evaluate). Specifically, first, we focus on the Chinese language over 6 major topics with 99 diverse subtopics. Second, we conduct a comprehensive quality control process to achieve high-quality questions and answers, where the reference answers are static and cannot be changed over time. Third, following SimpleQA, the questions and answers are very short, and the grading process is easy-to-evaluate based on OpenAI API. Based on Chinese SimpleQA, we perform a comprehensive evaluation on the factuality abilities of existing LLMs. Finally, we hope that Chinese SimpleQA could guide the developers to better understand the Chinese factuality abilities of their models and facilitate the growth of foundation models.

Summary

AI-Generated Summary

PDF353November 12, 2024