Chinese SimpleQA: Uma Avaliação de Factualidade em Chinês para Modelos de Linguagem Grandes
Chinese SimpleQA: A Chinese Factuality Evaluation for Large Language Models
November 11, 2024
Autores: Yancheng He, Shilong Li, Jiaheng Liu, Yingshui Tan, Hui Huang, Weixun Wang, Xingyuan Bu, Hangyu Guo, Chengwei Hu, Boren Zheng, Xuepeng Liu, Dekai Sun, Wenbo Su, Bo Zheng
cs.AI
Resumo
Novos padrões de avaliação de LLM são importantes para se alinhar com o rápido desenvolvimento de Modelos de Linguagem de Grande Escala (LLMs). Neste trabalho, apresentamos o Chinese SimpleQA, o primeiro benchmark chinês abrangente para avaliar a capacidade de factualidade de modelos de linguagem para responder a perguntas curtas, e o Chinese SimpleQA possui principalmente cinco propriedades (ou seja, Chinês, Diversificado, de Alta Qualidade, Estático, Fácil de Avaliar). Especificamente, primeiro, focamos na língua chinesa em mais de 6 tópicos principais com 99 sub-tópicos diversos. Segundo, realizamos um processo abrangente de controle de qualidade para obter perguntas e respostas de alta qualidade, onde as respostas de referência são estáticas e não podem ser alteradas ao longo do tempo. Terceiro, seguindo o SimpleQA, as perguntas e respostas são muito curtas, e o processo de avaliação é fácil de ser realizado com base na API da OpenAI. Com base no Chinese SimpleQA, realizamos uma avaliação abrangente das habilidades de factualidade dos LLMs existentes. Por fim, esperamos que o Chinese SimpleQA possa orientar os desenvolvedores a compreender melhor as habilidades de factualidade chinesas de seus modelos e facilitar o crescimento dos modelos fundamentais.
English
New LLM evaluation benchmarks are important to align with the rapid
development of Large Language Models (LLMs). In this work, we present Chinese
SimpleQA, the first comprehensive Chinese benchmark to evaluate the factuality
ability of language models to answer short questions, and Chinese SimpleQA
mainly has five properties (i.e., Chinese, Diverse, High-quality, Static,
Easy-to-evaluate). Specifically, first, we focus on the Chinese language over 6
major topics with 99 diverse subtopics. Second, we conduct a comprehensive
quality control process to achieve high-quality questions and answers, where
the reference answers are static and cannot be changed over time. Third,
following SimpleQA, the questions and answers are very short, and the grading
process is easy-to-evaluate based on OpenAI API. Based on Chinese SimpleQA, we
perform a comprehensive evaluation on the factuality abilities of existing
LLMs. Finally, we hope that Chinese SimpleQA could guide the developers to
better understand the Chinese factuality abilities of their models and
facilitate the growth of foundation models.