KoLA: Sorgfältige Evaluierung des Weltwissens großer Sprachmodelle
KoLA: Carefully Benchmarking World Knowledge of Large Language Models
June 15, 2023
Autoren: Jifan Yu, Xiaozhi Wang, Shangqing Tu, Shulin Cao, Daniel Zhang-Li, Xin Lv, Hao Peng, Zijun Yao, Xiaohan Zhang, Hanming Li, Chunyang Li, Zheyuan Zhang, Yushi Bai, Yantao Liu, Amy Xin, Nianyi Lin, Kaifeng Yun, Linlu Gong, Jianhui Chen, Zhili Wu, Yunjia Qi, Weikai Li, Yong Guan, Kaisheng Zeng, Ji Qi, Hailong Jin, Jinxin Liu, Yu Gu, Yuan Yao, Ning Ding, Lei Hou, Zhiyuan Liu, Bin Xu, Jie Tang, Juanzi Li
cs.AI
Zusammenfassung
Die beispiellose Leistung großer Sprachmodelle (LLMs) erfordert Verbesserungen in der Evaluierung. Anstatt lediglich die Bandbreite der Fähigkeiten von LLMs zu erkunden, glauben wir, dass sorgfältige und durchdachte Designs für umfassende, unvoreingenommene und anwendbare Evaluierungen unerlässlich sind. Angesichts der Bedeutung von Weltwissen für LLMs entwickeln wir einen Wissensorientierten LLM-Bewertungsbenchmark (KoLA), in dem wir drei entscheidende Faktoren sorgfältig gestalten: (1) Für die Fähigkeitsmodellierung imitieren wir die menschliche Kognition, um eine vierstufige Taxonomie von wissensbezogenen Fähigkeiten zu bilden, die 19 Aufgaben abdeckt. (2) Für die Daten verwenden wir sowohl Wikipedia, ein Korpus, der häufig von LLMs vortrainiert wird, als auch kontinuierlich gesammelte neue Korpora, um die Fähigkeit zur Verarbeitung unbekannter Daten und sich entwickelnden Wissens zu bewerten. (3) Für die Bewertungskriterien setzen wir ein kontrastives System ein, das Gesamtstandardwerte für eine bessere numerische Vergleichbarkeit über Aufgaben und Modelle hinweg sowie ein einzigartiges Selbstkontrastmetrik zur automatischen Bewertung von Wissenshalluzinationen umfasst. Wir evaluieren 21 Open-Source- und kommerzielle LLMs und erhalten einige interessante Erkenntnisse. Der KoLA-Datensatz und das offene Teilnahme-Ranking sind öffentlich unter https://kola.xlore.cn verfügbar und werden kontinuierlich aktualisiert, um Referenzen für die Entwicklung von LLMs und wissensbezogenen Systemen zu bieten.
English
The unprecedented performance of large language models (LLMs) necessitates
improvements in evaluations. Rather than merely exploring the breadth of LLM
abilities, we believe meticulous and thoughtful designs are essential to
thorough, unbiased, and applicable evaluations. Given the importance of world
knowledge to LLMs, we construct a Knowledge-oriented LLM Assessment benchmark
(KoLA), in which we carefully design three crucial factors: (1) For ability
modeling, we mimic human cognition to form a four-level taxonomy of
knowledge-related abilities, covering 19 tasks. (2) For data, to ensure fair
comparisons, we use both Wikipedia, a corpus prevalently pre-trained by LLMs,
along with continuously collected emerging corpora, aiming to evaluate the
capacity to handle unseen data and evolving knowledge. (3) For evaluation
criteria, we adopt a contrastive system, including overall standard scores for
better numerical comparability across tasks and models and a unique
self-contrast metric for automatically evaluating knowledge hallucination. We
evaluate 21 open-source and commercial LLMs and obtain some intriguing
findings. The KoLA dataset and open-participation leaderboard are publicly
released at https://kola.xlore.cn and will be continuously updated to provide
references for developing LLMs and knowledge-related systems.