ChatPaper.aiChatPaper

FLASK : Évaluation fine des modèles de langage basée sur des ensembles de compétences d'alignement

FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets

July 20, 2023
Auteurs: Seonghyeon Ye, Doyoung Kim, Sungdong Kim, Hyeonbin Hwang, Seungone Kim, Yongrae Jo, James Thorne, Juho Kim, Minjoon Seo
cs.AI

Résumé

L'évaluation des grands modèles de langage (LLMs) est complexe, car l'alignement sur les valeurs humaines nécessite la combinaison de multiples compétences, et l'ensemble des compétences requises varie en fonction des instructions. Les études récentes ont évalué les performances des LLMs de deux manières : (1) une évaluation automatique sur plusieurs benchmarks indépendants et (2) une évaluation humaine ou basée sur des machines attribuant un score global à la réponse. Cependant, ces deux approches constituent des évaluations grossières, ne tenant pas compte de la nature des instructions utilisateur qui nécessitent une composition de compétences spécifique à chaque instance, ce qui limite l'interprétation des véritables capacités des LLMs. Dans cet article, nous présentons FLASK (Fine-grained Language Model Evaluation based on Alignment SKill Sets), un protocole d'évaluation fine qui peut être utilisé pour des évaluations basées sur des modèles ou sur des humains, décomposant les scores globaux en un ensemble de compétences spécifiques à chaque instance. Plus précisément, nous définissons 12 compétences fines nécessaires aux LLMs pour suivre des instructions utilisateur ouvertes et construisons un ensemble d'évaluation en attribuant un ensemble de compétences à chaque instance. En annotant également les domaines cibles et le niveau de difficulté pour chaque instance, FLASK offre une vision holistique avec une analyse complète des performances d'un modèle en fonction des compétences, des domaines et de la difficulté. En utilisant FLASK, nous comparons plusieurs LLMs open-source et propriétaires et observons des résultats fortement corrélés entre les évaluations basées sur des modèles et celles basées sur des humains. FLASK permet aux développeurs de mesurer plus précisément les performances des modèles et d'identifier comment les améliorer en analysant les facteurs qui rendent les LLMs compétents dans des compétences particulières. Pour les praticiens, FLASK peut être utilisé pour recommander des modèles adaptés à des situations spécifiques grâce à une comparaison approfondie entre divers LLMs. Nous publions les données d'évaluation et le code d'implémentation à l'adresse https://github.com/kaistAI/FLASK.
English
Evaluation of Large Language Models (LLMs) is challenging because aligning to human values requires the composition of multiple skills and the required set of skills varies depending on the instruction. Recent studies have evaluated the performance of LLMs in two ways, (1) automatic evaluation on several independent benchmarks and (2) human or machined-based evaluation giving an overall score to the response. However, both settings are coarse-grained evaluations, not considering the nature of user instructions that require instance-wise skill composition, which limits the interpretation of the true capabilities of LLMs. In this paper, we introduce FLASK (Fine-grained Language Model Evaluation based on Alignment SKill Sets), a fine-grained evaluation protocol that can be used for both model-based and human-based evaluation which decomposes coarse-level scoring to an instance-wise skill set-level. Specifically, we define 12 fine-grained skills needed for LLMs to follow open-ended user instructions and construct an evaluation set by allocating a set of skills for each instance. Additionally, by annotating the target domains and difficulty level for each instance, FLASK provides a holistic view with a comprehensive analysis of a model's performance depending on skill, domain, and difficulty. Through using FLASK, we compare multiple open-sourced and proprietary LLMs and observe highly-correlated findings between model-based and human-based evaluations. FLASK enables developers to more accurately measure the model performance and how it can be improved by analyzing factors that make LLMs proficient in particular skills. For practitioners, FLASK can be used to recommend suitable models for particular situations through comprehensive comparison among various LLMs. We release the evaluation data and code implementation at https://github.com/kaistAI/FLASK.
PDF132December 15, 2024