ChatPaper.aiChatPaper

Chinese SimpleQA: Una Evaluación de Factibilidad en Chino para Modelos de Lenguaje Grandes

Chinese SimpleQA: A Chinese Factuality Evaluation for Large Language Models

November 11, 2024
Autores: Yancheng He, Shilong Li, Jiaheng Liu, Yingshui Tan, Hui Huang, Weixun Wang, Xingyuan Bu, Hangyu Guo, Chengwei Hu, Boren Zheng, Xuepeng Liu, Dekai Sun, Wenbo Su, Bo Zheng
cs.AI

Resumen

Los nuevos puntos de referencia de evaluación de LLM son importantes para alinearse con el rápido desarrollo de Modelos de Lenguaje Grandes (LLMs). En este trabajo, presentamos Chinese SimpleQA, el primer punto de referencia chino integral para evaluar la capacidad de factualidad de los modelos de lenguaje para responder preguntas cortas, y Chinese SimpleQA principalmente tiene cinco propiedades (es decir, Chino, Diverso, de Alta Calidad, Estático, Fácil de Evaluar). Específicamente, primero nos centramos en el idioma chino sobre 6 temas principales con 99 subtemas diversos. En segundo lugar, llevamos a cabo un proceso integral de control de calidad para lograr preguntas y respuestas de alta calidad, donde las respuestas de referencia son estáticas y no pueden cambiarse con el tiempo. En tercer lugar, siguiendo SimpleQA, las preguntas y respuestas son muy breves, y el proceso de calificación es fácil de evaluar basado en la API de OpenAI. Basándonos en Chinese SimpleQA, realizamos una evaluación exhaustiva de las capacidades de factualidad de los LLM existentes. Finalmente, esperamos que Chinese SimpleQA pueda guiar a los desarrolladores para comprender mejor las capacidades de factualidad chinas de sus modelos y facilitar el crecimiento de los modelos fundamentales.
English
New LLM evaluation benchmarks are important to align with the rapid development of Large Language Models (LLMs). In this work, we present Chinese SimpleQA, the first comprehensive Chinese benchmark to evaluate the factuality ability of language models to answer short questions, and Chinese SimpleQA mainly has five properties (i.e., Chinese, Diverse, High-quality, Static, Easy-to-evaluate). Specifically, first, we focus on the Chinese language over 6 major topics with 99 diverse subtopics. Second, we conduct a comprehensive quality control process to achieve high-quality questions and answers, where the reference answers are static and cannot be changed over time. Third, following SimpleQA, the questions and answers are very short, and the grading process is easy-to-evaluate based on OpenAI API. Based on Chinese SimpleQA, we perform a comprehensive evaluation on the factuality abilities of existing LLMs. Finally, we hope that Chinese SimpleQA could guide the developers to better understand the Chinese factuality abilities of their models and facilitate the growth of foundation models.

Summary

AI-Generated Summary

PDF353November 12, 2024