ChatPaper.aiChatPaper

FLASK: Fijnmazige Evaluatie van Taalmodellen gebaseerd op Alignatievaardigheden

FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets

July 20, 2023
Auteurs: Seonghyeon Ye, Doyoung Kim, Sungdong Kim, Hyeonbin Hwang, Seungone Kim, Yongrae Jo, James Thorne, Juho Kim, Minjoon Seo
cs.AI

Samenvatting

Evaluatie van Large Language Models (LLMs) is uitdagend omdat afstemming op menselijke waarden de samenstelling van meerdere vaardigheden vereist, en de benodigde set vaardigheden varieert afhankelijk van de instructie. Recente studies hebben de prestaties van LLMs op twee manieren geëvalueerd: (1) automatische evaluatie op verschillende onafhankelijke benchmarks en (2) menselijke of machinegebaseerde evaluatie die een algemene score toekent aan het antwoord. Beide benaderingen zijn echter grove evaluaties, waarbij de aard van gebruikersinstructies die een op instanties gebaseerde vaardigheidssamenstelling vereisen, niet in overweging wordt genomen. Dit beperkt de interpretatie van de werkelijke capaciteiten van LLMs. In dit artikel introduceren we FLASK (Fine-grained Language Model Evaluation based on Alignment SKill Sets), een fijnmazig evaluatieprotocol dat kan worden gebruikt voor zowel modelgebaseerde als menselijke evaluatie, en dat grove scores afbreekt naar een op instanties gebaseerd vaardighedenniveau. Specifiek definiëren we 12 fijnmazige vaardigheden die nodig zijn voor LLMs om open-einde gebruikersinstructies te volgen, en construeren we een evaluatieset door een set vaardigheden toe te wijzen aan elke instantie. Daarnaast biedt FLASK een holistisch beeld met een uitgebreide analyse van de prestaties van een model, afhankelijk van vaardigheid, domein en moeilijkheidsgraad, door de doeldomeinen en moeilijkheidsniveaus voor elke instantie te annoteren. Door FLASK te gebruiken, vergelijken we meerdere open-source en propriëtaire LLMs en observeren we sterk gecorreleerde bevindingen tussen modelgebaseerde en menselijke evaluaties. FLASK stelt ontwikkelaars in staat om de modelprestaties nauwkeuriger te meten en te analyseren hoe deze kunnen worden verbeterd door factoren te onderzoeken die LLMs bedreven maken in specifieke vaardigheden. Voor praktijkmensen kan FLASK worden gebruikt om geschikte modellen aan te bevelen voor specifieke situaties door middel van een uitgebreide vergelijking tussen verschillende LLMs. We publiceren de evaluatiedata en code-implementatie op https://github.com/kaistAI/FLASK.
English
Evaluation of Large Language Models (LLMs) is challenging because aligning to human values requires the composition of multiple skills and the required set of skills varies depending on the instruction. Recent studies have evaluated the performance of LLMs in two ways, (1) automatic evaluation on several independent benchmarks and (2) human or machined-based evaluation giving an overall score to the response. However, both settings are coarse-grained evaluations, not considering the nature of user instructions that require instance-wise skill composition, which limits the interpretation of the true capabilities of LLMs. In this paper, we introduce FLASK (Fine-grained Language Model Evaluation based on Alignment SKill Sets), a fine-grained evaluation protocol that can be used for both model-based and human-based evaluation which decomposes coarse-level scoring to an instance-wise skill set-level. Specifically, we define 12 fine-grained skills needed for LLMs to follow open-ended user instructions and construct an evaluation set by allocating a set of skills for each instance. Additionally, by annotating the target domains and difficulty level for each instance, FLASK provides a holistic view with a comprehensive analysis of a model's performance depending on skill, domain, and difficulty. Through using FLASK, we compare multiple open-sourced and proprietary LLMs and observe highly-correlated findings between model-based and human-based evaluations. FLASK enables developers to more accurately measure the model performance and how it can be improved by analyzing factors that make LLMs proficient in particular skills. For practitioners, FLASK can be used to recommend suitable models for particular situations through comprehensive comparison among various LLMs. We release the evaluation data and code implementation at https://github.com/kaistAI/FLASK.
PDF132December 15, 2024