FLASK: Avaliação de Modelos de Linguagem de Granularidade Fina Baseada em Conjuntos de Habilidades de Alinhamento
FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets
July 20, 2023
Autores: Seonghyeon Ye, Doyoung Kim, Sungdong Kim, Hyeonbin Hwang, Seungone Kim, Yongrae Jo, James Thorne, Juho Kim, Minjoon Seo
cs.AI
Resumo
A avaliação de Modelos de Linguagem de Grande Escala (LLMs) é desafiadora porque o alinhamento com valores humanos requer a composição de múltiplas habilidades, e o conjunto necessário de habilidades varia dependendo da instrução. Estudos recentes avaliaram o desempenho de LLMs de duas maneiras: (1) avaliação automática em vários benchmarks independentes e (2) avaliação baseada em humanos ou máquinas atribuindo uma pontuação geral à resposta. No entanto, ambas as configurações são avaliações de granularidade grossa, não considerando a natureza das instruções do usuário que exigem composição de habilidades em nível de instância, o que limita a interpretação das verdadeiras capacidades dos LLMs. Neste artigo, introduzimos o FLASK (Fine-grained Language Model Evaluation based on Alignment SKill Sets), um protocolo de avaliação de granularidade fina que pode ser usado tanto para avaliação baseada em modelos quanto em humanos, decompondo a pontuação em nível grosseiro para um conjunto de habilidades em nível de instância. Especificamente, definimos 12 habilidades de granularidade fina necessárias para que os LLMs sigam instruções abertas do usuário e construímos um conjunto de avaliação alocando um conjunto de habilidades para cada instância. Além disso, ao anotar os domínios de destino e o nível de dificuldade para cada instância, o FLASK fornece uma visão holística com uma análise abrangente do desempenho de um modelo dependendo de habilidade, domínio e dificuldade. Ao usar o FLASK, comparamos vários LLMs de código aberto e proprietários e observamos descobertas altamente correlacionadas entre avaliações baseadas em modelos e em humanos. O FLASK permite que os desenvolvedores meçam com mais precisão o desempenho do modelo e como ele pode ser melhorado ao analisar os fatores que tornam os LLMs proficientes em habilidades específicas. Para profissionais, o FLASK pode ser usado para recomendar modelos adequados para situações particulares por meio de uma comparação abrangente entre vários LLMs. Disponibilizamos os dados de avaliação e a implementação do código em https://github.com/kaistAI/FLASK.
English
Evaluation of Large Language Models (LLMs) is challenging because aligning to
human values requires the composition of multiple skills and the required set
of skills varies depending on the instruction. Recent studies have evaluated
the performance of LLMs in two ways, (1) automatic evaluation on several
independent benchmarks and (2) human or machined-based evaluation giving an
overall score to the response. However, both settings are coarse-grained
evaluations, not considering the nature of user instructions that require
instance-wise skill composition, which limits the interpretation of the true
capabilities of LLMs. In this paper, we introduce FLASK (Fine-grained Language
Model Evaluation based on Alignment SKill Sets), a fine-grained evaluation
protocol that can be used for both model-based and human-based evaluation which
decomposes coarse-level scoring to an instance-wise skill set-level.
Specifically, we define 12 fine-grained skills needed for LLMs to follow
open-ended user instructions and construct an evaluation set by allocating a
set of skills for each instance. Additionally, by annotating the target domains
and difficulty level for each instance, FLASK provides a holistic view with a
comprehensive analysis of a model's performance depending on skill, domain, and
difficulty. Through using FLASK, we compare multiple open-sourced and
proprietary LLMs and observe highly-correlated findings between model-based and
human-based evaluations. FLASK enables developers to more accurately measure
the model performance and how it can be improved by analyzing factors that make
LLMs proficient in particular skills. For practitioners, FLASK can be used to
recommend suitable models for particular situations through comprehensive
comparison among various LLMs. We release the evaluation data and code
implementation at https://github.com/kaistAI/FLASK.