FLASK: Valutazione Fine-Grained dei Modelli Linguistici basata sulle Capacità di Allineamento
FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets
July 20, 2023
Autori: Seonghyeon Ye, Doyoung Kim, Sungdong Kim, Hyeonbin Hwang, Seungone Kim, Yongrae Jo, James Thorne, Juho Kim, Minjoon Seo
cs.AI
Abstract
La valutazione dei Large Language Models (LLM) è complessa poiché l'allineamento ai valori umani richiede la composizione di molteplici competenze, e l'insieme di competenze necessarie varia a seconda dell'istruzione fornita. Studi recenti hanno valutato le prestazioni dei LLM in due modi: (1) valutazione automatica su diversi benchmark indipendenti e (2) valutazione basata su umani o macchine che assegna un punteggio complessivo alla risposta. Tuttavia, entrambe le impostazioni sono valutazioni grossolane, che non considerano la natura delle istruzioni dell'utente che richiedono una composizione di competenze specifica per ogni istanza, limitando così l'interpretazione delle vere capacità dei LLM. In questo articolo, introduciamo FLASK (Fine-grained Language Model Evaluation based on Alignment SKill Sets), un protocollo di valutazione granulare che può essere utilizzato sia per valutazioni basate su modelli che su umani, scomponendo il punteggio a livello grossolano in un insieme di competenze specifiche per ogni istanza. Nello specifico, definiamo 12 competenze granulari necessarie ai LLM per seguire istruzioni aperte degli utenti e costruiamo un set di valutazione assegnando un insieme di competenze a ciascuna istanza. Inoltre, annotando i domini target e il livello di difficoltà per ogni istanza, FLASK fornisce una visione olistica con un'analisi completa delle prestazioni di un modello in base a competenza, dominio e difficoltà. Utilizzando FLASK, confrontiamo diversi LLM open-source e proprietari e osserviamo risultati altamente correlati tra valutazioni basate su modelli e su umani. FLASK consente agli sviluppatori di misurare con maggiore precisione le prestazioni del modello e come queste possano essere migliorate analizzando i fattori che rendono i LLM competenti in particolari abilità. Per i professionisti, FLASK può essere utilizzato per raccomandare modelli adatti a situazioni specifiche attraverso un confronto completo tra vari LLM. Rilasciamo i dati di valutazione e l'implementazione del codice all'indirizzo https://github.com/kaistAI/FLASK.
English
Evaluation of Large Language Models (LLMs) is challenging because aligning to
human values requires the composition of multiple skills and the required set
of skills varies depending on the instruction. Recent studies have evaluated
the performance of LLMs in two ways, (1) automatic evaluation on several
independent benchmarks and (2) human or machined-based evaluation giving an
overall score to the response. However, both settings are coarse-grained
evaluations, not considering the nature of user instructions that require
instance-wise skill composition, which limits the interpretation of the true
capabilities of LLMs. In this paper, we introduce FLASK (Fine-grained Language
Model Evaluation based on Alignment SKill Sets), a fine-grained evaluation
protocol that can be used for both model-based and human-based evaluation which
decomposes coarse-level scoring to an instance-wise skill set-level.
Specifically, we define 12 fine-grained skills needed for LLMs to follow
open-ended user instructions and construct an evaluation set by allocating a
set of skills for each instance. Additionally, by annotating the target domains
and difficulty level for each instance, FLASK provides a holistic view with a
comprehensive analysis of a model's performance depending on skill, domain, and
difficulty. Through using FLASK, we compare multiple open-sourced and
proprietary LLMs and observe highly-correlated findings between model-based and
human-based evaluations. FLASK enables developers to more accurately measure
the model performance and how it can be improved by analyzing factors that make
LLMs proficient in particular skills. For practitioners, FLASK can be used to
recommend suitable models for particular situations through comprehensive
comparison among various LLMs. We release the evaluation data and code
implementation at https://github.com/kaistAI/FLASK.