ChatPaper.aiChatPaper

Avaliação de Seguimento de Instruções para Modelos de Linguagem de Grande Escala

Instruction-Following Evaluation for Large Language Models

November 14, 2023
Autores: Jeffrey Zhou, Tianjian Lu, Swaroop Mishra, Siddhartha Brahma, Sujoy Basu, Yi Luan, Denny Zhou, Le Hou
cs.AI

Resumo

Uma capacidade central dos Modelos de Linguagem de Grande Escala (LLMs) é seguir instruções em linguagem natural. No entanto, a avaliação dessas habilidades não é padronizada: avaliações humanas são caras, lentas e não são objetivamente reproduzíveis, enquanto a autoavaliação baseada em LLMs é potencialmente tendenciosa ou limitada pela capacidade do LLM avaliador. Para superar esses problemas, introduzimos o Instruction-Following Eval (IFEval) para modelos de linguagem de grande escala. O IFEval é um benchmark de avaliação direto e fácil de reproduzir. Ele se concentra em um conjunto de "instruções verificáveis", como "escreva em mais de 400 palavras" e "mencione a palavra-chave de IA pelo menos 3 vezes". Identificamos 25 tipos dessas instruções verificáveis e construímos cerca de 500 prompts, com cada prompt contendo uma ou mais instruções verificáveis. Mostramos os resultados da avaliação de dois LLMs amplamente disponíveis no mercado. Nosso código e dados podem ser encontrados em https://github.com/google-research/google-research/tree/master/instruction_following_eval.
English
One core capability of Large Language Models (LLMs) is to follow natural language instructions. However, the evaluation of such abilities is not standardized: Human evaluations are expensive, slow, and not objectively reproducible, while LLM-based auto-evaluation is potentially biased or limited by the ability of the evaluator LLM. To overcome these issues, we introduce Instruction-Following Eval (IFEval) for large language models. IFEval is a straightforward and easy-to-reproduce evaluation benchmark. It focuses on a set of "verifiable instructions" such as "write in more than 400 words" and "mention the keyword of AI at least 3 times". We identified 25 types of those verifiable instructions and constructed around 500 prompts, with each prompt containing one or more verifiable instructions. We show evaluation results of two widely available LLMs on the market. Our code and data can be found at https://github.com/google-research/google-research/tree/master/instruction_following_eval
PDF220December 15, 2024