FLASK: Fijnmazige Evaluatie van Taalmodellen gebaseerd op Alignatievaardigheden
FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets
July 20, 2023
Auteurs: Seonghyeon Ye, Doyoung Kim, Sungdong Kim, Hyeonbin Hwang, Seungone Kim, Yongrae Jo, James Thorne, Juho Kim, Minjoon Seo
cs.AI
Samenvatting
Evaluatie van Large Language Models (LLMs) is uitdagend omdat afstemming op menselijke waarden de samenstelling van meerdere vaardigheden vereist, en de benodigde set vaardigheden varieert afhankelijk van de instructie. Recente studies hebben de prestaties van LLMs op twee manieren geëvalueerd: (1) automatische evaluatie op verschillende onafhankelijke benchmarks en (2) menselijke of machinegebaseerde evaluatie die een algemene score toekent aan het antwoord. Beide benaderingen zijn echter grove evaluaties, waarbij de aard van gebruikersinstructies die een op instanties gebaseerde vaardigheidssamenstelling vereisen, niet in overweging wordt genomen. Dit beperkt de interpretatie van de werkelijke capaciteiten van LLMs. In dit artikel introduceren we FLASK (Fine-grained Language Model Evaluation based on Alignment SKill Sets), een fijnmazig evaluatieprotocol dat kan worden gebruikt voor zowel modelgebaseerde als menselijke evaluatie, en dat grove scores afbreekt naar een op instanties gebaseerd vaardighedenniveau. Specifiek definiëren we 12 fijnmazige vaardigheden die nodig zijn voor LLMs om open-einde gebruikersinstructies te volgen, en construeren we een evaluatieset door een set vaardigheden toe te wijzen aan elke instantie. Daarnaast biedt FLASK een holistisch beeld met een uitgebreide analyse van de prestaties van een model, afhankelijk van vaardigheid, domein en moeilijkheidsgraad, door de doeldomeinen en moeilijkheidsniveaus voor elke instantie te annoteren. Door FLASK te gebruiken, vergelijken we meerdere open-source en propriëtaire LLMs en observeren we sterk gecorreleerde bevindingen tussen modelgebaseerde en menselijke evaluaties. FLASK stelt ontwikkelaars in staat om de modelprestaties nauwkeuriger te meten en te analyseren hoe deze kunnen worden verbeterd door factoren te onderzoeken die LLMs bedreven maken in specifieke vaardigheden. Voor praktijkmensen kan FLASK worden gebruikt om geschikte modellen aan te bevelen voor specifieke situaties door middel van een uitgebreide vergelijking tussen verschillende LLMs. We publiceren de evaluatiedata en code-implementatie op https://github.com/kaistAI/FLASK.
English
Evaluation of Large Language Models (LLMs) is challenging because aligning to
human values requires the composition of multiple skills and the required set
of skills varies depending on the instruction. Recent studies have evaluated
the performance of LLMs in two ways, (1) automatic evaluation on several
independent benchmarks and (2) human or machined-based evaluation giving an
overall score to the response. However, both settings are coarse-grained
evaluations, not considering the nature of user instructions that require
instance-wise skill composition, which limits the interpretation of the true
capabilities of LLMs. In this paper, we introduce FLASK (Fine-grained Language
Model Evaluation based on Alignment SKill Sets), a fine-grained evaluation
protocol that can be used for both model-based and human-based evaluation which
decomposes coarse-level scoring to an instance-wise skill set-level.
Specifically, we define 12 fine-grained skills needed for LLMs to follow
open-ended user instructions and construct an evaluation set by allocating a
set of skills for each instance. Additionally, by annotating the target domains
and difficulty level for each instance, FLASK provides a holistic view with a
comprehensive analysis of a model's performance depending on skill, domain, and
difficulty. Through using FLASK, we compare multiple open-sourced and
proprietary LLMs and observe highly-correlated findings between model-based and
human-based evaluations. FLASK enables developers to more accurately measure
the model performance and how it can be improved by analyzing factors that make
LLMs proficient in particular skills. For practitioners, FLASK can be used to
recommend suitable models for particular situations through comprehensive
comparison among various LLMs. We release the evaluation data and code
implementation at https://github.com/kaistAI/FLASK.