ChatPaper.aiChatPaper

Evaluación de Seguimiento de Instrucciones para Modelos de Lenguaje a Gran Escala

Instruction-Following Evaluation for Large Language Models

November 14, 2023
Autores: Jeffrey Zhou, Tianjian Lu, Swaroop Mishra, Siddhartha Brahma, Sujoy Basu, Yi Luan, Denny Zhou, Le Hou
cs.AI

Resumen

Una capacidad fundamental de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) es seguir instrucciones en lenguaje natural. Sin embargo, la evaluación de dichas habilidades no está estandarizada: las evaluaciones humanas son costosas, lentas y no son objetivamente reproducibles, mientras que la autoevaluación basada en LLMs puede estar sesgada o limitada por la capacidad del LLM evaluador. Para superar estos problemas, presentamos Instruction-Following Eval (IFEval) para modelos de lenguaje de gran escala. IFEval es un punto de referencia de evaluación sencillo y fácil de reproducir. Se centra en un conjunto de "instrucciones verificables", como "escribe en más de 400 palabras" y "menciona la palabra clave de IA al menos 3 veces". Identificamos 25 tipos de estas instrucciones verificables y construimos alrededor de 500 prompts, donde cada prompt contiene una o más instrucciones verificables. Mostramos los resultados de evaluación de dos LLMs ampliamente disponibles en el mercado. Nuestro código y datos se pueden encontrar en https://github.com/google-research/google-research/tree/master/instruction_following_eval.
English
One core capability of Large Language Models (LLMs) is to follow natural language instructions. However, the evaluation of such abilities is not standardized: Human evaluations are expensive, slow, and not objectively reproducible, while LLM-based auto-evaluation is potentially biased or limited by the ability of the evaluator LLM. To overcome these issues, we introduce Instruction-Following Eval (IFEval) for large language models. IFEval is a straightforward and easy-to-reproduce evaluation benchmark. It focuses on a set of "verifiable instructions" such as "write in more than 400 words" and "mention the keyword of AI at least 3 times". We identified 25 types of those verifiable instructions and constructed around 500 prompts, with each prompt containing one or more verifiable instructions. We show evaluation results of two widely available LLMs on the market. Our code and data can be found at https://github.com/google-research/google-research/tree/master/instruction_following_eval
PDF200December 15, 2024