KoLA: Nauwkeurig benchmarken van wereldkennis in grote taalmodellen

Samenvatting

De ongekende prestaties van grote taalmodelen (LLM's) vereisen verbeteringen in evaluatiemethoden. In plaats van slechts de breedte van LLM-vaardigheden te verkennen, geloven wij dat zorgvuldige en doordachte ontwerpen essentieel zijn voor grondige, onbevooroordeelde en toepasbare evaluaties. Gezien het belang van wereldkennis voor LLM's, hebben we een kennisgericht LLM-evaluatiebenchmark ontwikkeld, genaamd KoLA (Knowledge-oriented LLM Assessment), waarin we drie cruciale factoren zorgvuldig hebben ontworpen: (1) Voor het modelleren van vaardigheden bootsen we menselijke cognitie na om een vierlagige taxonomie van kennisgerelateerde vaardigheden te vormen, die 19 taken omvat. (2) Voor data gebruiken we, om eerlijke vergelijkingen te garanderen, zowel Wikipedia, een corpus dat veelvuldig is voorgetraind door LLM's, als continu verzamelde nieuwe corpora, met als doel het vermogen om ongeziene data en evoluerende kennis te verwerken te evalueren. (3) Voor evaluatiecriteria hanteren we een contrastief systeem, inclusief algemene standaardscores voor betere numerieke vergelijkbaarheid tussen taken en modellen, en een unieke zelfcontrastmetriek voor het automatisch evalueren van kennis hallucinatie. We evalueren 21 open-source en commerciële LLM's en verkrijgen enkele intrigerende bevindingen. De KoLA-dataset en het open-deelname leaderboard zijn openbaar vrijgegeven op https://kola.xlore.cn en zullen continu worden bijgewerkt om referenties te bieden voor de ontwikkeling van LLM's en kennisgerelateerde systemen.

English

The unprecedented performance of large language models (LLMs) necessitates improvements in evaluations. Rather than merely exploring the breadth of LLM abilities, we believe meticulous and thoughtful designs are essential to thorough, unbiased, and applicable evaluations. Given the importance of world knowledge to LLMs, we construct a Knowledge-oriented LLM Assessment benchmark (KoLA), in which we carefully design three crucial factors: (1) For ability modeling, we mimic human cognition to form a four-level taxonomy of knowledge-related abilities, covering 19 tasks. (2) For data, to ensure fair comparisons, we use both Wikipedia, a corpus prevalently pre-trained by LLMs, along with continuously collected emerging corpora, aiming to evaluate the capacity to handle unseen data and evolving knowledge. (3) For evaluation criteria, we adopt a contrastive system, including overall standard scores for better numerical comparability across tasks and models and a unique self-contrast metric for automatically evaluating knowledge hallucination. We evaluate 21 open-source and commercial LLMs and obtain some intriguing findings. The KoLA dataset and open-participation leaderboard are publicly released at https://kola.xlore.cn and will be continuously updated to provide references for developing LLMs and knowledge-related systems.

KoLA: Nauwkeurig benchmarken van wereldkennis in grote taalmodellen

KoLA: Carefully Benchmarking World Knowledge of Large Language Models

Samenvatting

Support