KoLA: 大規模言語モデルの世界知識を慎重にベンチマークする
KoLA: Carefully Benchmarking World Knowledge of Large Language Models
June 15, 2023
著者: Jifan Yu, Xiaozhi Wang, Shangqing Tu, Shulin Cao, Daniel Zhang-Li, Xin Lv, Hao Peng, Zijun Yao, Xiaohan Zhang, Hanming Li, Chunyang Li, Zheyuan Zhang, Yushi Bai, Yantao Liu, Amy Xin, Nianyi Lin, Kaifeng Yun, Linlu Gong, Jianhui Chen, Zhili Wu, Yunjia Qi, Weikai Li, Yong Guan, Kaisheng Zeng, Ji Qi, Hailong Jin, Jinxin Liu, Yu Gu, Yuan Yao, Ning Ding, Lei Hou, Zhiyuan Liu, Bin Xu, Jie Tang, Juanzi Li
cs.AI
要旨
大規模言語モデル(LLM)の前例のない性能は、評価方法の改善を必要としています。LLMの能力の幅を単に探求するだけでなく、徹底的で偏りのない、かつ適用可能な評価を行うためには、慎重かつ思慮深い設計が不可欠であると考えます。LLMにとって世界の知識が重要であることを踏まえ、我々は知識指向のLLM評価ベンチマーク(KoLA)を構築しました。このベンチマークでは、以下の3つの重要な要素を慎重に設計しています。(1) 能力モデリングにおいて、人間の認知を模倣し、知識関連能力の4段階の分類体系を形成し、19のタスクを網羅しています。(2) データに関しては、公平な比較を確保するため、LLMが広く事前学習しているWikipediaと、継続的に収集される新興コーパスの両方を使用し、未知のデータや進化する知識を扱う能力を評価することを目指しています。(3) 評価基準では、対照的なシステムを採用し、タスクやモデル間の数値的な比較を容易にするための全体的な標準スコアと、知識の幻覚を自動的に評価するための独自の自己対照メトリックを含めています。我々は21のオープンソースおよび商用LLMを評価し、いくつかの興味深い知見を得ました。KoLAデータセットとオープン参加型リーダーボードはhttps://kola.xlore.cnで公開されており、LLMや知識関連システムの開発のための参考として継続的に更新されます。
English
The unprecedented performance of large language models (LLMs) necessitates
improvements in evaluations. Rather than merely exploring the breadth of LLM
abilities, we believe meticulous and thoughtful designs are essential to
thorough, unbiased, and applicable evaluations. Given the importance of world
knowledge to LLMs, we construct a Knowledge-oriented LLM Assessment benchmark
(KoLA), in which we carefully design three crucial factors: (1) For ability
modeling, we mimic human cognition to form a four-level taxonomy of
knowledge-related abilities, covering 19 tasks. (2) For data, to ensure fair
comparisons, we use both Wikipedia, a corpus prevalently pre-trained by LLMs,
along with continuously collected emerging corpora, aiming to evaluate the
capacity to handle unseen data and evolving knowledge. (3) For evaluation
criteria, we adopt a contrastive system, including overall standard scores for
better numerical comparability across tasks and models and a unique
self-contrast metric for automatically evaluating knowledge hallucination. We
evaluate 21 open-source and commercial LLMs and obtain some intriguing
findings. The KoLA dataset and open-participation leaderboard are publicly
released at https://kola.xlore.cn and will be continuously updated to provide
references for developing LLMs and knowledge-related systems.