Evaluatie van Instructievolging voor Grote Taalmodellen
Instruction-Following Evaluation for Large Language Models
November 14, 2023
Auteurs: Jeffrey Zhou, Tianjian Lu, Swaroop Mishra, Siddhartha Brahma, Sujoy Basu, Yi Luan, Denny Zhou, Le Hou
cs.AI
Samenvatting
Een kerncapaciteit van grote taalmmodellen (LLM's) is het opvolgen van natuurlijke taal instructies. De evaluatie van dergelijke vaardigheden is echter niet gestandaardiseerd: menselijke evaluaties zijn duur, traag en niet objectief reproduceerbaar, terwijl automatische evaluatie op basis van LLM's potentieel bevooroordeeld is of beperkt wordt door het vermogen van het evaluerende LLM. Om deze problemen te overwinnen, introduceren we Instruction-Following Eval (IFEval) voor grote taalmmodellen. IFEval is een eenvoudig en gemakkelijk te reproduceren evaluatiebenchmark. Het richt zich op een set van "verifieerbare instructies", zoals "schrijf in meer dan 400 woorden" en "noem het sleutelwoord AI minstens 3 keer". We hebben 25 soorten van deze verifieerbare instructies geïdentificeerd en ongeveer 500 prompts geconstrueerd, waarbij elke prompt een of meer verifieerbare instructies bevat. We presenteren evaluatieresultaten van twee breed beschikbare LLM's op de markt. Onze code en gegevens zijn te vinden op https://github.com/google-research/google-research/tree/master/instruction_following_eval.
English
One core capability of Large Language Models (LLMs) is to follow natural
language instructions. However, the evaluation of such abilities is not
standardized: Human evaluations are expensive, slow, and not objectively
reproducible, while LLM-based auto-evaluation is potentially biased or limited
by the ability of the evaluator LLM. To overcome these issues, we introduce
Instruction-Following Eval (IFEval) for large language models. IFEval is a
straightforward and easy-to-reproduce evaluation benchmark. It focuses on a set
of "verifiable instructions" such as "write in more than 400 words" and
"mention the keyword of AI at least 3 times". We identified 25 types of those
verifiable instructions and constructed around 500 prompts, with each prompt
containing one or more verifiable instructions. We show evaluation results of
two widely available LLMs on the market. Our code and data can be found at
https://github.com/google-research/google-research/tree/master/instruction_following_eval