BLEUBERI: BLEU оказывается удивительно эффективной наградой для выполнения инструкций
BLEUBERI: BLEU is a surprisingly effective reward for instruction following
May 16, 2025
Авторы: Yapei Chang, Yekyung Kim, Michael Krumdick, Amir Zadeh, Chuan Li, Chris Tanner, Mohit Iyyer
cs.AI
Аннотация
Модели вознаграждения играют ключевую роль в согласовании больших языковых моделей (LLM) с человеческими предпочтениями, однако их обучение требует значительных затрат, включая крупномасштабные данные с аннотированными предпочтениями и мощные предобученные LLM. В то же время растущая доступность высококачественных синтетических наборов данных для выполнения инструкций ставит вопрос: могут ли более простые, основанные на эталонных данных метрики служить жизнеспособной альтернативой моделям вознаграждения в процессе согласования на основе обучения с подкреплением (RL)? В данной работе мы сначала показываем, что BLEU, базовая метрика сопоставления строк, неожиданно демонстрирует высокое соответствие с сильными моделями вознаграждения в согласии с человеческими предпочтениями на общих наборах данных для выполнения инструкций. Основываясь на этом наблюдении, мы разрабатываем BLEUBERI — метод, который сначала выявляет сложные инструкции, а затем применяет оптимизацию политики на основе группового относительного сравнения (GRPO), используя BLEU непосредственно в качестве функции вознаграждения. Мы демонстрируем, что модели, обученные с помощью BLEUBERI, конкурируют с моделями, обученными с использованием RL, направляемого моделями вознаграждения, на четырех сложных наборах данных для выполнения инструкций и трех различных базовых языковых моделях. Человеческая оценка также подтверждает, что качество выходных данных моделей BLEUBERI сопоставимо с моделями, согласованными через модели вознаграждения. Более того, модели BLEUBERI генерируют выходные данные, которые более точно соответствуют фактам, чем конкурирующие методы. В целом, мы показываем, что при наличии доступа к высококачественным эталонным выходным данным (легко получаемым через существующие наборы данных для выполнения инструкций или синтетическую генерацию данных), метрики, основанные на сопоставлении строк, являются дешевыми, но эффективными заменителями моделей вознаграждения в процессе согласования. Мы публикуем наш код и данные по адресу https://github.com/lilakk/BLEUBERI.
English
Reward models are central to aligning LLMs with human preferences, but they
are costly to train, requiring large-scale human-labeled preference data and
powerful pretrained LLM backbones. Meanwhile, the increasing availability of
high-quality synthetic instruction-following datasets raises the question: can
simpler, reference-based metrics serve as viable alternatives to reward models
during RL-based alignment? In this paper, we show first that BLEU, a basic
string-matching metric, surprisingly matches strong reward models in agreement
with human preferences on general instruction-following datasets. Based on this
insight, we develop BLEUBERI, a method that first identifies challenging
instructions and then applies Group Relative Policy Optimization (GRPO) using
BLEU directly as the reward function. We demonstrate that BLEUBERI-trained
models are competitive with models trained via reward model-guided RL across
four challenging instruction-following benchmarks and three different base
language models. A human evaluation further supports that the quality of
BLEUBERI model outputs is on par with those from reward model-aligned models.
Moreover, BLEUBERI models generate outputs that are more factually grounded
than competing methods. Overall, we show that given access to high-quality
reference outputs (easily obtained via existing instruction-following datasets
or synthetic data generation), string matching-based metrics are cheap yet
effective proxies for reward models during alignment. We release our code and
data at https://github.com/lilakk/BLEUBERI.Summary
AI-Generated Summary