FLASK: Evaluación de Modelos de Lenguaje Basada en Conjuntos de Habilidades de Alineación de Granularidad Fina
FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets
July 20, 2023
Autores: Seonghyeon Ye, Doyoung Kim, Sungdong Kim, Hyeonbin Hwang, Seungone Kim, Yongrae Jo, James Thorne, Juho Kim, Minjoon Seo
cs.AI
Resumen
La evaluación de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) es un desafío, ya que alinearse con los valores humanos requiere la composición de múltiples habilidades, y el conjunto de habilidades necesarias varía según la instrucción. Estudios recientes han evaluado el rendimiento de los LLMs de dos maneras: (1) evaluación automática en varios benchmarks independientes y (2) evaluación basada en humanos o máquinas que otorga una puntuación general a la respuesta. Sin embargo, ambos enfoques son evaluaciones de grano grueso, sin considerar la naturaleza de las instrucciones del usuario que requieren una composición de habilidades específica para cada instancia, lo que limita la interpretación de las verdaderas capacidades de los LLMs. En este artículo, presentamos FLASK (Evaluación de Modelos de Lenguaje de Grano Fino basada en Conjuntos de Habilidades de Alineación), un protocolo de evaluación de grano fino que puede utilizarse tanto para evaluaciones basadas en modelos como en humanos, descomponiendo la puntuación de nivel grueso en un conjunto de habilidades específico para cada instancia. En concreto, definimos 12 habilidades de grano fino necesarias para que los LLMs sigan instrucciones abiertas de los usuarios y construimos un conjunto de evaluación asignando un conjunto de habilidades para cada instancia. Además, al anotar los dominios objetivo y el nivel de dificultad para cada instancia, FLASK proporciona una visión holística con un análisis exhaustivo del rendimiento de un modelo según la habilidad, el dominio y la dificultad. Al utilizar FLASK, comparamos múltiples LLMs de código abierto y propietarios y observamos hallazgos altamente correlacionados entre las evaluaciones basadas en modelos y en humanos. FLASK permite a los desarrolladores medir con mayor precisión el rendimiento del modelo y cómo puede mejorarse al analizar los factores que hacen que los LLMs sean competentes en habilidades particulares. Para los profesionales, FLASK puede utilizarse para recomendar modelos adecuados para situaciones específicas a través de una comparación exhaustiva entre varios LLMs. Publicamos los datos de evaluación y la implementación del código en https://github.com/kaistAI/FLASK.
English
Evaluation of Large Language Models (LLMs) is challenging because aligning to
human values requires the composition of multiple skills and the required set
of skills varies depending on the instruction. Recent studies have evaluated
the performance of LLMs in two ways, (1) automatic evaluation on several
independent benchmarks and (2) human or machined-based evaluation giving an
overall score to the response. However, both settings are coarse-grained
evaluations, not considering the nature of user instructions that require
instance-wise skill composition, which limits the interpretation of the true
capabilities of LLMs. In this paper, we introduce FLASK (Fine-grained Language
Model Evaluation based on Alignment SKill Sets), a fine-grained evaluation
protocol that can be used for both model-based and human-based evaluation which
decomposes coarse-level scoring to an instance-wise skill set-level.
Specifically, we define 12 fine-grained skills needed for LLMs to follow
open-ended user instructions and construct an evaluation set by allocating a
set of skills for each instance. Additionally, by annotating the target domains
and difficulty level for each instance, FLASK provides a holistic view with a
comprehensive analysis of a model's performance depending on skill, domain, and
difficulty. Through using FLASK, we compare multiple open-sourced and
proprietary LLMs and observe highly-correlated findings between model-based and
human-based evaluations. FLASK enables developers to more accurately measure
the model performance and how it can be improved by analyzing factors that make
LLMs proficient in particular skills. For practitioners, FLASK can be used to
recommend suitable models for particular situations through comprehensive
comparison among various LLMs. We release the evaluation data and code
implementation at https://github.com/kaistAI/FLASK.