ChatPaper.aiChatPaper

Оценка выполнения инструкций для крупных языковых моделей

Instruction-Following Evaluation for Large Language Models

November 14, 2023
Авторы: Jeffrey Zhou, Tianjian Lu, Swaroop Mishra, Siddhartha Brahma, Sujoy Basu, Yi Luan, Denny Zhou, Le Hou
cs.AI

Аннотация

Одной из ключевых способностей крупных языковых моделей (LLM) является выполнение инструкций на естественном языке. Однако оценка таких способностей не стандартизирована: человеческая оценка является дорогостоящей, медленной и не может быть объективно воспроизведена, в то время как автоматическая оценка на основе LLM потенциально может быть предвзятой или ограниченной способностями модели-оценщика. Чтобы преодолеть эти проблемы, мы представляем Instruction-Following Eval (IFEval) — метод оценки крупных языковых моделей. IFEval — это простой и легко воспроизводимый бенчмарк для оценки. Он фокусируется на наборе «проверяемых инструкций», таких как «напишите более 400 слов» или «упомяните ключевое слово AI не менее 3 раз». Мы выделили 25 типов таких проверяемых инструкций и создали около 500 промптов, каждый из которых содержит одну или несколько проверяемых инструкций. Мы демонстрируем результаты оценки двух широко доступных на рынке LLM. Наш код и данные доступны по адресу: https://github.com/google-research/google-research/tree/master/instruction_following_eval.
English
One core capability of Large Language Models (LLMs) is to follow natural language instructions. However, the evaluation of such abilities is not standardized: Human evaluations are expensive, slow, and not objectively reproducible, while LLM-based auto-evaluation is potentially biased or limited by the ability of the evaluator LLM. To overcome these issues, we introduce Instruction-Following Eval (IFEval) for large language models. IFEval is a straightforward and easy-to-reproduce evaluation benchmark. It focuses on a set of "verifiable instructions" such as "write in more than 400 words" and "mention the keyword of AI at least 3 times". We identified 25 types of those verifiable instructions and constructed around 500 prompts, with each prompt containing one or more verifiable instructions. We show evaluation results of two widely available LLMs on the market. Our code and data can be found at https://github.com/google-research/google-research/tree/master/instruction_following_eval
PDF200December 15, 2024