BLEUBERI: BLEU é uma recompensa surpreendentemente eficaz para o seguimento de instruções
BLEUBERI: BLEU is a surprisingly effective reward for instruction following
May 16, 2025
Autores: Yapei Chang, Yekyung Kim, Michael Krumdick, Amir Zadeh, Chuan Li, Chris Tanner, Mohit Iyyer
cs.AI
Resumo
Modelos de recompensa são centrais para alinhar LLMs (Modelos de Linguagem de Grande Escala) com as preferências humanas, mas são caros de treinar, exigindo dados de preferência em larga escala rotulados por humanos e backbones de LLMs pré-treinados poderosos. Enquanto isso, a crescente disponibilidade de conjuntos de dados sintéticos de alta qualidade para seguir instruções levanta a questão: métricas mais simples, baseadas em referência, podem servir como alternativas viáveis aos modelos de recompensa durante o alinhamento baseado em RL (Aprendizado por Reforço)? Neste artigo, mostramos primeiro que o BLEU, uma métrica básica de correspondência de strings, surpreendentemente se equipara a modelos de recompensa fortes em termos de concordância com as preferências humanas em conjuntos de dados gerais de seguir instruções. Com base nessa percepção, desenvolvemos o BLEUBERI, um método que primeiro identifica instruções desafiadoras e depois aplica a Otimização de Política Relativa em Grupo (GRPO) usando o BLEU diretamente como função de recompensa. Demonstramos que modelos treinados com BLEUBERI são competitivos com modelos treinados via RL guiado por modelos de recompensa em quatro benchmarks desafiadores de seguir instruções e três modelos de linguagem base diferentes. Uma avaliação humana adicional apoia que a qualidade das saídas dos modelos BLEUBERI está em pé de igualdade com as dos modelos alinhados por modelos de recompensa. Além disso, os modelos BLEUBERI geram saídas que são mais factualmente fundamentadas do que os métodos concorrentes. No geral, mostramos que, dado o acesso a saídas de referência de alta qualidade (facilmente obtidas por meio de conjuntos de dados existentes de seguir instruções ou geração de dados sintéticos), métricas baseadas em correspondência de strings são proxies baratos, mas eficazes, para modelos de recompensa durante o alinhamento. Disponibilizamos nosso código e dados em https://github.com/lilakk/BLEUBERI.
English
Reward models are central to aligning LLMs with human preferences, but they
are costly to train, requiring large-scale human-labeled preference data and
powerful pretrained LLM backbones. Meanwhile, the increasing availability of
high-quality synthetic instruction-following datasets raises the question: can
simpler, reference-based metrics serve as viable alternatives to reward models
during RL-based alignment? In this paper, we show first that BLEU, a basic
string-matching metric, surprisingly matches strong reward models in agreement
with human preferences on general instruction-following datasets. Based on this
insight, we develop BLEUBERI, a method that first identifies challenging
instructions and then applies Group Relative Policy Optimization (GRPO) using
BLEU directly as the reward function. We demonstrate that BLEUBERI-trained
models are competitive with models trained via reward model-guided RL across
four challenging instruction-following benchmarks and three different base
language models. A human evaluation further supports that the quality of
BLEUBERI model outputs is on par with those from reward model-aligned models.
Moreover, BLEUBERI models generate outputs that are more factually grounded
than competing methods. Overall, we show that given access to high-quality
reference outputs (easily obtained via existing instruction-following datasets
or synthetic data generation), string matching-based metrics are cheap yet
effective proxies for reward models during alignment. We release our code and
data at https://github.com/lilakk/BLEUBERI.