KoLA : Un benchmarking rigoureux des connaissances mondiales des grands modèles de langage
KoLA: Carefully Benchmarking World Knowledge of Large Language Models
June 15, 2023
Auteurs: Jifan Yu, Xiaozhi Wang, Shangqing Tu, Shulin Cao, Daniel Zhang-Li, Xin Lv, Hao Peng, Zijun Yao, Xiaohan Zhang, Hanming Li, Chunyang Li, Zheyuan Zhang, Yushi Bai, Yantao Liu, Amy Xin, Nianyi Lin, Kaifeng Yun, Linlu Gong, Jianhui Chen, Zhili Wu, Yunjia Qi, Weikai Li, Yong Guan, Kaisheng Zeng, Ji Qi, Hailong Jin, Jinxin Liu, Yu Gu, Yuan Yao, Ning Ding, Lei Hou, Zhiyuan Liu, Bin Xu, Jie Tang, Juanzi Li
cs.AI
Résumé
Les performances sans précédent des grands modèles de langage (LLM) nécessitent des améliorations dans les méthodes d'évaluation. Plutôt que d'explorer simplement l'étendue des capacités des LLM, nous pensons que des conceptions méticuleuses et réfléchies sont essentielles pour des évaluations approfondies, impartiales et applicables. Compte tenu de l'importance des connaissances mondiales pour les LLM, nous construisons un benchmark d'évaluation orienté vers la connaissance pour les LLM (KoLA), dans lequel nous concevons soigneusement trois facteurs cruciaux : (1) Pour la modélisation des capacités, nous imitons la cognition humaine pour former une taxonomie à quatre niveaux des compétences liées à la connaissance, couvrant 19 tâches. (2) Pour les données, afin d'assurer des comparaisons équitables, nous utilisons à la fois Wikipédia, un corpus largement pré-entraîné par les LLM, ainsi que des corpus émergents collectés en continu, visant à évaluer la capacité à traiter des données inédites et des connaissances en évolution. (3) Pour les critères d'évaluation, nous adoptons un système contrastif, incluant des scores standard globaux pour une meilleure comparabilité numérique entre les tâches et les modèles, ainsi qu'une métrique d'auto-contraste unique pour évaluer automatiquement les hallucinations de connaissances. Nous évaluons 21 LLM open-source et commerciaux et obtenons des résultats intrigants. Le jeu de données KoLA et le tableau des participants ouvert sont publiquement disponibles à l'adresse https://kola.xlore.cn et seront continuellement mis à jour pour fournir des références pour le développement des LLM et des systèmes liés à la connaissance.
English
The unprecedented performance of large language models (LLMs) necessitates
improvements in evaluations. Rather than merely exploring the breadth of LLM
abilities, we believe meticulous and thoughtful designs are essential to
thorough, unbiased, and applicable evaluations. Given the importance of world
knowledge to LLMs, we construct a Knowledge-oriented LLM Assessment benchmark
(KoLA), in which we carefully design three crucial factors: (1) For ability
modeling, we mimic human cognition to form a four-level taxonomy of
knowledge-related abilities, covering 19 tasks. (2) For data, to ensure fair
comparisons, we use both Wikipedia, a corpus prevalently pre-trained by LLMs,
along with continuously collected emerging corpora, aiming to evaluate the
capacity to handle unseen data and evolving knowledge. (3) For evaluation
criteria, we adopt a contrastive system, including overall standard scores for
better numerical comparability across tasks and models and a unique
self-contrast metric for automatically evaluating knowledge hallucination. We
evaluate 21 open-source and commercial LLMs and obtain some intriguing
findings. The KoLA dataset and open-participation leaderboard are publicly
released at https://kola.xlore.cn and will be continuously updated to provide
references for developing LLMs and knowledge-related systems.