FLASK : Évaluation fine des modèles de langage basée sur des ensembles de compétences d'alignement
FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets
July 20, 2023
Auteurs: Seonghyeon Ye, Doyoung Kim, Sungdong Kim, Hyeonbin Hwang, Seungone Kim, Yongrae Jo, James Thorne, Juho Kim, Minjoon Seo
cs.AI
Résumé
L'évaluation des grands modèles de langage (LLMs) est complexe, car l'alignement sur les valeurs humaines nécessite la combinaison de multiples compétences, et l'ensemble des compétences requises varie en fonction des instructions. Les études récentes ont évalué les performances des LLMs de deux manières : (1) une évaluation automatique sur plusieurs benchmarks indépendants et (2) une évaluation humaine ou basée sur des machines attribuant un score global à la réponse. Cependant, ces deux approches constituent des évaluations grossières, ne tenant pas compte de la nature des instructions utilisateur qui nécessitent une composition de compétences spécifique à chaque instance, ce qui limite l'interprétation des véritables capacités des LLMs. Dans cet article, nous présentons FLASK (Fine-grained Language Model Evaluation based on Alignment SKill Sets), un protocole d'évaluation fine qui peut être utilisé pour des évaluations basées sur des modèles ou sur des humains, décomposant les scores globaux en un ensemble de compétences spécifiques à chaque instance. Plus précisément, nous définissons 12 compétences fines nécessaires aux LLMs pour suivre des instructions utilisateur ouvertes et construisons un ensemble d'évaluation en attribuant un ensemble de compétences à chaque instance. En annotant également les domaines cibles et le niveau de difficulté pour chaque instance, FLASK offre une vision holistique avec une analyse complète des performances d'un modèle en fonction des compétences, des domaines et de la difficulté. En utilisant FLASK, nous comparons plusieurs LLMs open-source et propriétaires et observons des résultats fortement corrélés entre les évaluations basées sur des modèles et celles basées sur des humains. FLASK permet aux développeurs de mesurer plus précisément les performances des modèles et d'identifier comment les améliorer en analysant les facteurs qui rendent les LLMs compétents dans des compétences particulières. Pour les praticiens, FLASK peut être utilisé pour recommander des modèles adaptés à des situations spécifiques grâce à une comparaison approfondie entre divers LLMs. Nous publions les données d'évaluation et le code d'implémentation à l'adresse https://github.com/kaistAI/FLASK.
English
Evaluation of Large Language Models (LLMs) is challenging because aligning to
human values requires the composition of multiple skills and the required set
of skills varies depending on the instruction. Recent studies have evaluated
the performance of LLMs in two ways, (1) automatic evaluation on several
independent benchmarks and (2) human or machined-based evaluation giving an
overall score to the response. However, both settings are coarse-grained
evaluations, not considering the nature of user instructions that require
instance-wise skill composition, which limits the interpretation of the true
capabilities of LLMs. In this paper, we introduce FLASK (Fine-grained Language
Model Evaluation based on Alignment SKill Sets), a fine-grained evaluation
protocol that can be used for both model-based and human-based evaluation which
decomposes coarse-level scoring to an instance-wise skill set-level.
Specifically, we define 12 fine-grained skills needed for LLMs to follow
open-ended user instructions and construct an evaluation set by allocating a
set of skills for each instance. Additionally, by annotating the target domains
and difficulty level for each instance, FLASK provides a holistic view with a
comprehensive analysis of a model's performance depending on skill, domain, and
difficulty. Through using FLASK, we compare multiple open-sourced and
proprietary LLMs and observe highly-correlated findings between model-based and
human-based evaluations. FLASK enables developers to more accurately measure
the model performance and how it can be improved by analyzing factors that make
LLMs proficient in particular skills. For practitioners, FLASK can be used to
recommend suitable models for particular situations through comprehensive
comparison among various LLMs. We release the evaluation data and code
implementation at https://github.com/kaistAI/FLASK.