ChatPaper.aiChatPaper

Évaluation de la capacité à suivre les instructions pour les grands modèles de langage

Instruction-Following Evaluation for Large Language Models

November 14, 2023
Auteurs: Jeffrey Zhou, Tianjian Lu, Swaroop Mishra, Siddhartha Brahma, Sujoy Basu, Yi Luan, Denny Zhou, Le Hou
cs.AI

Résumé

Une capacité fondamentale des grands modèles de langage (LLMs) est de suivre des instructions en langage naturel. Cependant, l'évaluation de ces capacités n'est pas standardisée : les évaluations humaines sont coûteuses, lentes et non reproductibles de manière objective, tandis que l'auto-évaluation basée sur des LLMs est potentiellement biaisée ou limitée par les capacités du LLM évaluateur. Pour surmonter ces problèmes, nous introduisons Instruction-Following Eval (IFEval) pour les grands modèles de langage. IFEval est un benchmark d'évaluation simple et facile à reproduire. Il se concentre sur un ensemble d'"instructions vérifiables" telles que "écrire en plus de 400 mots" et "mentionner le mot-clé IA au moins 3 fois". Nous avons identifié 25 types de ces instructions vérifiables et construit environ 500 prompts, chaque prompt contenant une ou plusieurs instructions vérifiables. Nous présentons les résultats d'évaluation de deux LLMs largement disponibles sur le marché. Notre code et nos données sont disponibles à l'adresse suivante : https://github.com/google-research/google-research/tree/master/instruction_following_eval.
English
One core capability of Large Language Models (LLMs) is to follow natural language instructions. However, the evaluation of such abilities is not standardized: Human evaluations are expensive, slow, and not objectively reproducible, while LLM-based auto-evaluation is potentially biased or limited by the ability of the evaluator LLM. To overcome these issues, we introduce Instruction-Following Eval (IFEval) for large language models. IFEval is a straightforward and easy-to-reproduce evaluation benchmark. It focuses on a set of "verifiable instructions" such as "write in more than 400 words" and "mention the keyword of AI at least 3 times". We identified 25 types of those verifiable instructions and constructed around 500 prompts, with each prompt containing one or more verifiable instructions. We show evaluation results of two widely available LLMs on the market. Our code and data can be found at https://github.com/google-research/google-research/tree/master/instruction_following_eval
PDF200December 15, 2024