ChatPaper.aiChatPaper

Valutazione del Seguimento delle Istruzioni per Modelli Linguistici di Grande Scala

Instruction-Following Evaluation for Large Language Models

November 14, 2023
Autori: Jeffrey Zhou, Tianjian Lu, Swaroop Mishra, Siddhartha Brahma, Sujoy Basu, Yi Luan, Denny Zhou, Le Hou
cs.AI

Abstract

Una delle capacità fondamentali dei Large Language Models (LLM) è quella di seguire istruzioni in linguaggio naturale. Tuttavia, la valutazione di tali abilità non è standardizzata: le valutazioni umane sono costose, lente e non riproducibili in modo oggettivo, mentre la valutazione automatica basata su LLM è potenzialmente distorta o limitata dalle capacità del LLM valutatore. Per superare questi problemi, introduciamo Instruction-Following Eval (IFEval) per i large language models. IFEval è un benchmark di valutazione semplice e facile da riprodurre. Si concentra su un insieme di "istruzioni verificabili" come "scrivi più di 400 parole" e "menziona la parola chiave AI almeno 3 volte". Abbiamo identificato 25 tipi di queste istruzioni verificabili e costruito circa 500 prompt, ciascuno dei quali contiene una o più istruzioni verificabili. Mostriamo i risultati della valutazione di due LLM ampiamente disponibili sul mercato. Il nostro codice e i dati sono disponibili all'indirizzo https://github.com/google-research/google-research/tree/master/instruction_following_eval.
English
One core capability of Large Language Models (LLMs) is to follow natural language instructions. However, the evaluation of such abilities is not standardized: Human evaluations are expensive, slow, and not objectively reproducible, while LLM-based auto-evaluation is potentially biased or limited by the ability of the evaluator LLM. To overcome these issues, we introduce Instruction-Following Eval (IFEval) for large language models. IFEval is a straightforward and easy-to-reproduce evaluation benchmark. It focuses on a set of "verifiable instructions" such as "write in more than 400 words" and "mention the keyword of AI at least 3 times". We identified 25 types of those verifiable instructions and constructed around 500 prompts, with each prompt containing one or more verifiable instructions. We show evaluation results of two widely available LLMs on the market. Our code and data can be found at https://github.com/google-research/google-research/tree/master/instruction_following_eval
PDF220December 15, 2024