KoLA: Avaliação Cuidadosa do Conhecimento Mundial em Modelos de Linguagem de Grande Escala

Resumo

O desempenho sem precedentes dos grandes modelos de linguagem (LLMs) exige melhorias nas avaliações. Em vez de apenas explorar a amplitude das habilidades dos LLMs, acreditamos que designs meticulosos e bem pensados são essenciais para avaliações abrangentes, imparciais e aplicáveis. Dada a importância do conhecimento mundial para os LLMs, construímos um benchmark de Avaliação de LLMs Orientado ao Conhecimento (KoLA), no qual projetamos cuidadosamente três fatores cruciais: (1) Para a modelagem de habilidades, imitamos a cognição humana para formar uma taxonomia de quatro níveis de habilidades relacionadas ao conhecimento, abrangendo 19 tarefas. (2) Para os dados, a fim de garantir comparações justas, utilizamos tanto a Wikipedia, um corpus amplamente pré-treinado por LLMs, quanto corpora emergentes coletados continuamente, com o objetivo de avaliar a capacidade de lidar com dados não vistos e conhecimento em evolução. (3) Para os critérios de avaliação, adotamos um sistema contrastivo, incluindo pontuações padrão gerais para melhor comparabilidade numérica entre tarefas e modelos, e uma métrica única de auto-contraste para avaliar automaticamente a alucinação de conhecimento. Avaliamos 21 LLMs de código aberto e comerciais e obtivemos algumas descobertas intrigantes. O conjunto de dados KoLA e o quadro de liderança de participação aberta são publicamente disponibilizados em https://kola.xlore.cn e serão continuamente atualizados para fornecer referências para o desenvolvimento de LLMs e sistemas relacionados ao conhecimento.

English

The unprecedented performance of large language models (LLMs) necessitates improvements in evaluations. Rather than merely exploring the breadth of LLM abilities, we believe meticulous and thoughtful designs are essential to thorough, unbiased, and applicable evaluations. Given the importance of world knowledge to LLMs, we construct a Knowledge-oriented LLM Assessment benchmark (KoLA), in which we carefully design three crucial factors: (1) For ability modeling, we mimic human cognition to form a four-level taxonomy of knowledge-related abilities, covering 19 tasks. (2) For data, to ensure fair comparisons, we use both Wikipedia, a corpus prevalently pre-trained by LLMs, along with continuously collected emerging corpora, aiming to evaluate the capacity to handle unseen data and evolving knowledge. (3) For evaluation criteria, we adopt a contrastive system, including overall standard scores for better numerical comparability across tasks and models and a unique self-contrast metric for automatically evaluating knowledge hallucination. We evaluate 21 open-source and commercial LLMs and obtain some intriguing findings. The KoLA dataset and open-participation leaderboard are publicly released at https://kola.xlore.cn and will be continuously updated to provide references for developing LLMs and knowledge-related systems.

KoLA: Avaliação Cuidadosa do Conhecimento Mundial em Modelos de Linguagem de Grande Escala

KoLA: Carefully Benchmarking World Knowledge of Large Language Models

Resumo

Support