ChatPaper.aiChatPaper

KoLA: Evaluación Rigurosa del Conocimiento Mundial en Modelos de Lenguaje de Gran Escala

KoLA: Carefully Benchmarking World Knowledge of Large Language Models

June 15, 2023
Autores: Jifan Yu, Xiaozhi Wang, Shangqing Tu, Shulin Cao, Daniel Zhang-Li, Xin Lv, Hao Peng, Zijun Yao, Xiaohan Zhang, Hanming Li, Chunyang Li, Zheyuan Zhang, Yushi Bai, Yantao Liu, Amy Xin, Nianyi Lin, Kaifeng Yun, Linlu Gong, Jianhui Chen, Zhili Wu, Yunjia Qi, Weikai Li, Yong Guan, Kaisheng Zeng, Ji Qi, Hailong Jin, Jinxin Liu, Yu Gu, Yuan Yao, Ning Ding, Lei Hou, Zhiyuan Liu, Bin Xu, Jie Tang, Juanzi Li
cs.AI

Resumen

El rendimiento sin precedentes de los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) exige mejoras en las evaluaciones. En lugar de simplemente explorar la amplitud de las capacidades de los LLMs, creemos que diseños meticulosos y reflexivos son esenciales para evaluaciones exhaustivas, imparciales y aplicables. Dada la importancia del conocimiento del mundo para los LLMs, construimos un punto de referencia de evaluación orientado al conocimiento para LLMs (KoLA), en el cual diseñamos cuidadosamente tres factores cruciales: (1) Para el modelado de capacidades, imitamos la cognición humana para formar una taxonomía de cuatro niveles de habilidades relacionadas con el conocimiento, abarcando 19 tareas. (2) Para los datos, con el fin de garantizar comparaciones justas, utilizamos tanto Wikipedia, un corpus ampliamente preentrenado por los LLMs, como corpus emergentes recopilados continuamente, con el objetivo de evaluar la capacidad para manejar datos no vistos y conocimiento en evolución. (3) Para los criterios de evaluación, adoptamos un sistema contrastivo, que incluye puntuaciones estándar generales para una mejor comparabilidad numérica entre tareas y modelos, y una métrica única de autocontraste para evaluar automáticamente la alucinación de conocimiento. Evaluamos 21 LLMs de código abierto y comerciales y obtenemos hallazgos interesantes. El conjunto de datos KoLA y la tabla de clasificación de participación abierta se han publicado públicamente en https://kola.xlore.cn y se actualizarán continuamente para proporcionar referencias para el desarrollo de LLMs y sistemas relacionados con el conocimiento.
English
The unprecedented performance of large language models (LLMs) necessitates improvements in evaluations. Rather than merely exploring the breadth of LLM abilities, we believe meticulous and thoughtful designs are essential to thorough, unbiased, and applicable evaluations. Given the importance of world knowledge to LLMs, we construct a Knowledge-oriented LLM Assessment benchmark (KoLA), in which we carefully design three crucial factors: (1) For ability modeling, we mimic human cognition to form a four-level taxonomy of knowledge-related abilities, covering 19 tasks. (2) For data, to ensure fair comparisons, we use both Wikipedia, a corpus prevalently pre-trained by LLMs, along with continuously collected emerging corpora, aiming to evaluate the capacity to handle unseen data and evolving knowledge. (3) For evaluation criteria, we adopt a contrastive system, including overall standard scores for better numerical comparability across tasks and models and a unique self-contrast metric for automatically evaluating knowledge hallucination. We evaluate 21 open-source and commercial LLMs and obtain some intriguing findings. The KoLA dataset and open-participation leaderboard are publicly released at https://kola.xlore.cn and will be continuously updated to provide references for developing LLMs and knowledge-related systems.
PDF190December 15, 2024