ChatPaper.aiChatPaper

KoLA: 대규모 언어 모델의 세계 지식에 대한 신중한 벤치마킹

KoLA: Carefully Benchmarking World Knowledge of Large Language Models

June 15, 2023
저자: Jifan Yu, Xiaozhi Wang, Shangqing Tu, Shulin Cao, Daniel Zhang-Li, Xin Lv, Hao Peng, Zijun Yao, Xiaohan Zhang, Hanming Li, Chunyang Li, Zheyuan Zhang, Yushi Bai, Yantao Liu, Amy Xin, Nianyi Lin, Kaifeng Yun, Linlu Gong, Jianhui Chen, Zhili Wu, Yunjia Qi, Weikai Li, Yong Guan, Kaisheng Zeng, Ji Qi, Hailong Jin, Jinxin Liu, Yu Gu, Yuan Yao, Ning Ding, Lei Hou, Zhiyuan Liu, Bin Xu, Jie Tang, Juanzi Li
cs.AI

초록

대규모 언어 모델(LLM)의 전례 없는 성능은 평가 방법의 개선을 요구합니다. 단순히 LLM의 능력 범위를 탐색하는 것보다, 우리는 철저하고 편향 없으며 적용 가능한 평가를 위해 세심하고 신중한 설계가 필수적이라고 믿습니다. LLM에 있어 세계 지식의 중요성을 고려하여, 우리는 지식 중심의 LLM 평가 벤치마크(KoLA)를 구축했습니다. 여기서 우리는 세 가지 핵심 요소를 신중하게 설계했습니다: (1) 능력 모델링을 위해, 인간의 인지를 모방하여 지식 관련 능력을 4단계로 분류하고 19개의 작업을 포함시켰습니다. (2) 데이터 측면에서는, 공정한 비교를 위해 LLM이 일반적으로 사전 학습한 위키피디아와 지속적으로 수집되는 신규 코퍼스를 모두 사용하여, 보지 못한 데이터와 진화하는 지식을 처리하는 능력을 평가하고자 했습니다. (3) 평가 기준으로는, 작업과 모델 간의 수치적 비교를 용이하게 하기 위한 전체 표준 점수와, 지식 환각을 자동으로 평가하기 위한 독자적인 자기 대조 지표를 포함한 대조 시스템을 채택했습니다. 우리는 21개의 오픈소스 및 상용 LLM을 평가하고 흥미로운 결과를 얻었습니다. KoLA 데이터셋과 참여형 리더보드는 https://kola.xlore.cn에서 공개되었으며, LLM 및 지식 관련 시스템 개발을 위한 참고 자료를 제공하기 위해 지속적으로 업데이트될 예정입니다.
English
The unprecedented performance of large language models (LLMs) necessitates improvements in evaluations. Rather than merely exploring the breadth of LLM abilities, we believe meticulous and thoughtful designs are essential to thorough, unbiased, and applicable evaluations. Given the importance of world knowledge to LLMs, we construct a Knowledge-oriented LLM Assessment benchmark (KoLA), in which we carefully design three crucial factors: (1) For ability modeling, we mimic human cognition to form a four-level taxonomy of knowledge-related abilities, covering 19 tasks. (2) For data, to ensure fair comparisons, we use both Wikipedia, a corpus prevalently pre-trained by LLMs, along with continuously collected emerging corpora, aiming to evaluate the capacity to handle unseen data and evolving knowledge. (3) For evaluation criteria, we adopt a contrastive system, including overall standard scores for better numerical comparability across tasks and models and a unique self-contrast metric for automatically evaluating knowledge hallucination. We evaluate 21 open-source and commercial LLMs and obtain some intriguing findings. The KoLA dataset and open-participation leaderboard are publicly released at https://kola.xlore.cn and will be continuously updated to provide references for developing LLMs and knowledge-related systems.
PDF190December 15, 2024