ChatPaper.aiChatPaper

Bewertung der Anweisungsbefolgung für große Sprachmodelle

Instruction-Following Evaluation for Large Language Models

November 14, 2023
Autoren: Jeffrey Zhou, Tianjian Lu, Swaroop Mishra, Siddhartha Brahma, Sujoy Basu, Yi Luan, Denny Zhou, Le Hou
cs.AI

Zusammenfassung

Eine Kernfähigkeit von Large Language Models (LLMs) besteht darin, natürlichen Sprachanweisungen zu folgen. Die Bewertung solcher Fähigkeiten ist jedoch nicht standardisiert: Menschliche Bewertungen sind teuer, langsam und nicht objektiv reproduzierbar, während die LLM-basierte automatische Bewertung potenziell voreingenommen oder durch die Fähigkeiten des bewertenden LLMs eingeschränkt ist. Um diese Probleme zu überwinden, führen wir Instruction-Following Eval (IFEval) für große Sprachmodelle ein. IFEval ist ein einfacher und leicht reproduzierbarer Bewertungsbenchmark. Er konzentriert sich auf eine Reihe von „überprüfbaren Anweisungen“ wie „schreibe in mehr als 400 Wörtern“ und „erwähne das Schlüsselwort KI mindestens dreimal“. Wir haben 25 Arten solcher überprüfbarer Anweisungen identifiziert und rund 500 Prompts konstruiert, wobei jeder Prompt eine oder mehrere überprüfbare Anweisungen enthält. Wir zeigen die Bewertungsergebnisse von zwei weit verbreiteten LLMs auf dem Markt. Unser Code und unsere Daten sind unter https://github.com/google-research/google-research/tree/master/instruction_following_eval verfügbar.
English
One core capability of Large Language Models (LLMs) is to follow natural language instructions. However, the evaluation of such abilities is not standardized: Human evaluations are expensive, slow, and not objectively reproducible, while LLM-based auto-evaluation is potentially biased or limited by the ability of the evaluator LLM. To overcome these issues, we introduce Instruction-Following Eval (IFEval) for large language models. IFEval is a straightforward and easy-to-reproduce evaluation benchmark. It focuses on a set of "verifiable instructions" such as "write in more than 400 words" and "mention the keyword of AI at least 3 times". We identified 25 types of those verifiable instructions and constructed around 500 prompts, with each prompt containing one or more verifiable instructions. We show evaluation results of two widely available LLMs on the market. Our code and data can be found at https://github.com/google-research/google-research/tree/master/instruction_following_eval
PDF200December 15, 2024