FLASK: Evaluación de Modelos de Lenguaje Basada en Conjuntos de Habilidades de Alineación de Granularidad Fina

Resumen

La evaluación de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) es un desafío, ya que alinearse con los valores humanos requiere la composición de múltiples habilidades, y el conjunto de habilidades necesarias varía según la instrucción. Estudios recientes han evaluado el rendimiento de los LLMs de dos maneras: (1) evaluación automática en varios benchmarks independientes y (2) evaluación basada en humanos o máquinas que otorga una puntuación general a la respuesta. Sin embargo, ambos enfoques son evaluaciones de grano grueso, sin considerar la naturaleza de las instrucciones del usuario que requieren una composición de habilidades específica para cada instancia, lo que limita la interpretación de las verdaderas capacidades de los LLMs. En este artículo, presentamos FLASK (Evaluación de Modelos de Lenguaje de Grano Fino basada en Conjuntos de Habilidades de Alineación), un protocolo de evaluación de grano fino que puede utilizarse tanto para evaluaciones basadas en modelos como en humanos, descomponiendo la puntuación de nivel grueso en un conjunto de habilidades específico para cada instancia. En concreto, definimos 12 habilidades de grano fino necesarias para que los LLMs sigan instrucciones abiertas de los usuarios y construimos un conjunto de evaluación asignando un conjunto de habilidades para cada instancia. Además, al anotar los dominios objetivo y el nivel de dificultad para cada instancia, FLASK proporciona una visión holística con un análisis exhaustivo del rendimiento de un modelo según la habilidad, el dominio y la dificultad. Al utilizar FLASK, comparamos múltiples LLMs de código abierto y propietarios y observamos hallazgos altamente correlacionados entre las evaluaciones basadas en modelos y en humanos. FLASK permite a los desarrolladores medir con mayor precisión el rendimiento del modelo y cómo puede mejorarse al analizar los factores que hacen que los LLMs sean competentes en habilidades particulares. Para los profesionales, FLASK puede utilizarse para recomendar modelos adecuados para situaciones específicas a través de una comparación exhaustiva entre varios LLMs. Publicamos los datos de evaluación y la implementación del código en https://github.com/kaistAI/FLASK.

English

Evaluation of Large Language Models (LLMs) is challenging because aligning to human values requires the composition of multiple skills and the required set of skills varies depending on the instruction. Recent studies have evaluated the performance of LLMs in two ways, (1) automatic evaluation on several independent benchmarks and (2) human or machined-based evaluation giving an overall score to the response. However, both settings are coarse-grained evaluations, not considering the nature of user instructions that require instance-wise skill composition, which limits the interpretation of the true capabilities of LLMs. In this paper, we introduce FLASK (Fine-grained Language Model Evaluation based on Alignment SKill Sets), a fine-grained evaluation protocol that can be used for both model-based and human-based evaluation which decomposes coarse-level scoring to an instance-wise skill set-level. Specifically, we define 12 fine-grained skills needed for LLMs to follow open-ended user instructions and construct an evaluation set by allocating a set of skills for each instance. Additionally, by annotating the target domains and difficulty level for each instance, FLASK provides a holistic view with a comprehensive analysis of a model's performance depending on skill, domain, and difficulty. Through using FLASK, we compare multiple open-sourced and proprietary LLMs and observe highly-correlated findings between model-based and human-based evaluations. FLASK enables developers to more accurately measure the model performance and how it can be improved by analyzing factors that make LLMs proficient in particular skills. For practitioners, FLASK can be used to recommend suitable models for particular situations through comprehensive comparison among various LLMs. We release the evaluation data and code implementation at https://github.com/kaistAI/FLASK.

FLASK: Evaluación de Modelos de Lenguaje Basada en Conjuntos de Habilidades de Alineación de Granularidad Fina

FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets

Resumen

Support