KoLA: Valutazione Attenta della Conoscenza Mondiale nei Modelli Linguistici di Grande Dimensione

Abstract

Le prestazioni senza precedenti dei grandi modelli linguistici (LLM) rendono necessari miglioramenti nelle valutazioni. Piuttosto che esplorare semplicemente l'ampiezza delle capacità degli LLM, riteniamo che siano essenziali progettazioni meticolose e ponderate per ottenere valutazioni complete, imparziali e applicabili. Considerata l'importanza della conoscenza del mondo per gli LLM, abbiamo costruito un benchmark di valutazione orientato alla conoscenza per i grandi modelli linguistici (KoLA), in cui abbiamo progettato con cura tre fattori cruciali: (1) Per la modellazione delle capacità, abbiamo imitato la cognizione umana per formare una tassonomia a quattro livelli di abilità legate alla conoscenza, coprendo 19 task. (2) Per i dati, al fine di garantire confronti equi, utilizziamo sia Wikipedia, un corpus ampiamente pre-addestrato dagli LLM, insieme a corpora emergenti raccolti continuamente, con l'obiettivo di valutare la capacità di gestire dati non visti e conoscenze in evoluzione. (3) Per i criteri di valutazione, adottiamo un sistema contrastivo, che include punteggi standard complessivi per una migliore comparabilità numerica tra task e modelli, e una metrica unica di auto-contrasto per valutare automaticamente l'allucinazione di conoscenza. Abbiamo valutato 21 LLM open-source e commerciali e ottenuto alcuni risultati interessanti. Il dataset KoLA e la classifica aperta alla partecipazione sono pubblicamente disponibili all'indirizzo https://kola.xlore.cn e saranno continuamente aggiornati per fornire riferimenti per lo sviluppo di LLM e sistemi legati alla conoscenza.

English

The unprecedented performance of large language models (LLMs) necessitates improvements in evaluations. Rather than merely exploring the breadth of LLM abilities, we believe meticulous and thoughtful designs are essential to thorough, unbiased, and applicable evaluations. Given the importance of world knowledge to LLMs, we construct a Knowledge-oriented LLM Assessment benchmark (KoLA), in which we carefully design three crucial factors: (1) For ability modeling, we mimic human cognition to form a four-level taxonomy of knowledge-related abilities, covering 19 tasks. (2) For data, to ensure fair comparisons, we use both Wikipedia, a corpus prevalently pre-trained by LLMs, along with continuously collected emerging corpora, aiming to evaluate the capacity to handle unseen data and evolving knowledge. (3) For evaluation criteria, we adopt a contrastive system, including overall standard scores for better numerical comparability across tasks and models and a unique self-contrast metric for automatically evaluating knowledge hallucination. We evaluate 21 open-source and commercial LLMs and obtain some intriguing findings. The KoLA dataset and open-participation leaderboard are publicly released at https://kola.xlore.cn and will be continuously updated to provide references for developing LLMs and knowledge-related systems.

KoLA: Valutazione Attenta della Conoscenza Mondiale nei Modelli Linguistici di Grande Dimensione

KoLA: Carefully Benchmarking World Knowledge of Large Language Models

Abstract

Support