FLASK: Valutazione Fine-Grained dei Modelli Linguistici basata sulle Capacità di Allineamento

Abstract

La valutazione dei Large Language Models (LLM) è complessa poiché l'allineamento ai valori umani richiede la composizione di molteplici competenze, e l'insieme di competenze necessarie varia a seconda dell'istruzione fornita. Studi recenti hanno valutato le prestazioni dei LLM in due modi: (1) valutazione automatica su diversi benchmark indipendenti e (2) valutazione basata su umani o macchine che assegna un punteggio complessivo alla risposta. Tuttavia, entrambe le impostazioni sono valutazioni grossolane, che non considerano la natura delle istruzioni dell'utente che richiedono una composizione di competenze specifica per ogni istanza, limitando così l'interpretazione delle vere capacità dei LLM. In questo articolo, introduciamo FLASK (Fine-grained Language Model Evaluation based on Alignment SKill Sets), un protocollo di valutazione granulare che può essere utilizzato sia per valutazioni basate su modelli che su umani, scomponendo il punteggio a livello grossolano in un insieme di competenze specifiche per ogni istanza. Nello specifico, definiamo 12 competenze granulari necessarie ai LLM per seguire istruzioni aperte degli utenti e costruiamo un set di valutazione assegnando un insieme di competenze a ciascuna istanza. Inoltre, annotando i domini target e il livello di difficoltà per ogni istanza, FLASK fornisce una visione olistica con un'analisi completa delle prestazioni di un modello in base a competenza, dominio e difficoltà. Utilizzando FLASK, confrontiamo diversi LLM open-source e proprietari e osserviamo risultati altamente correlati tra valutazioni basate su modelli e su umani. FLASK consente agli sviluppatori di misurare con maggiore precisione le prestazioni del modello e come queste possano essere migliorate analizzando i fattori che rendono i LLM competenti in particolari abilità. Per i professionisti, FLASK può essere utilizzato per raccomandare modelli adatti a situazioni specifiche attraverso un confronto completo tra vari LLM. Rilasciamo i dati di valutazione e l'implementazione del codice all'indirizzo https://github.com/kaistAI/FLASK.

English

Evaluation of Large Language Models (LLMs) is challenging because aligning to human values requires the composition of multiple skills and the required set of skills varies depending on the instruction. Recent studies have evaluated the performance of LLMs in two ways, (1) automatic evaluation on several independent benchmarks and (2) human or machined-based evaluation giving an overall score to the response. However, both settings are coarse-grained evaluations, not considering the nature of user instructions that require instance-wise skill composition, which limits the interpretation of the true capabilities of LLMs. In this paper, we introduce FLASK (Fine-grained Language Model Evaluation based on Alignment SKill Sets), a fine-grained evaluation protocol that can be used for both model-based and human-based evaluation which decomposes coarse-level scoring to an instance-wise skill set-level. Specifically, we define 12 fine-grained skills needed for LLMs to follow open-ended user instructions and construct an evaluation set by allocating a set of skills for each instance. Additionally, by annotating the target domains and difficulty level for each instance, FLASK provides a holistic view with a comprehensive analysis of a model's performance depending on skill, domain, and difficulty. Through using FLASK, we compare multiple open-sourced and proprietary LLMs and observe highly-correlated findings between model-based and human-based evaluations. FLASK enables developers to more accurately measure the model performance and how it can be improved by analyzing factors that make LLMs proficient in particular skills. For practitioners, FLASK can be used to recommend suitable models for particular situations through comprehensive comparison among various LLMs. We release the evaluation data and code implementation at https://github.com/kaistAI/FLASK.

FLASK: Valutazione Fine-Grained dei Modelli Linguistici basata sulle Capacità di Allineamento

FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets

Abstract

Support