ChatPaper.aiChatPaper

BLEUBERI: BLEU es una recompensa sorprendentemente efectiva para el seguimiento de instrucciones.

BLEUBERI: BLEU is a surprisingly effective reward for instruction following

May 16, 2025
Autores: Yapei Chang, Yekyung Kim, Michael Krumdick, Amir Zadeh, Chuan Li, Chris Tanner, Mohit Iyyer
cs.AI

Resumen

Los modelos de recompensa son fundamentales para alinear los LLM con las preferencias humanas, pero son costosos de entrenar, ya que requieren datos de preferencias etiquetados a gran escala por humanos y potentes modelos LLM preentrenados. Mientras tanto, la creciente disponibilidad de conjuntos de datos sintéticos de alta calidad para el seguimiento de instrucciones plantea la pregunta: ¿pueden métricas más simples basadas en referencias servir como alternativas viables a los modelos de recompensa durante la alineación basada en RL? En este artículo, mostramos primero que BLEU, una métrica básica de coincidencia de cadenas, coincide sorprendentemente con modelos de recompensa fuertes en términos de concordancia con las preferencias humanas en conjuntos de datos generales de seguimiento de instrucciones. Basándonos en esta idea, desarrollamos BLEUBERI, un método que primero identifica instrucciones desafiantes y luego aplica la Optimización de Política Relativa de Grupo (GRPO) utilizando BLEU directamente como función de recompensa. Demostramos que los modelos entrenados con BLEUBERI son competitivos con los modelos entrenados mediante RL guiado por modelos de recompensa en cuatro puntos de referencia desafiantes de seguimiento de instrucciones y tres modelos de lenguaje base diferentes. Una evaluación humana adicional respalda que la calidad de las salidas de los modelos BLEUBERI es comparable a la de los modelos alineados con modelos de recompensa. Además, los modelos BLEUBERI generan salidas que están más fundamentadas en hechos que los métodos competidores. En general, mostramos que, dado el acceso a salidas de referencia de alta calidad (fácilmente obtenibles mediante conjuntos de datos existentes de seguimiento de instrucciones o generación de datos sintéticos), las métricas basadas en coincidencia de cadenas son proxies baratos pero efectivos para los modelos de recompensa durante la alineación. Publicamos nuestro código y datos en https://github.com/lilakk/BLEUBERI.
English
Reward models are central to aligning LLMs with human preferences, but they are costly to train, requiring large-scale human-labeled preference data and powerful pretrained LLM backbones. Meanwhile, the increasing availability of high-quality synthetic instruction-following datasets raises the question: can simpler, reference-based metrics serve as viable alternatives to reward models during RL-based alignment? In this paper, we show first that BLEU, a basic string-matching metric, surprisingly matches strong reward models in agreement with human preferences on general instruction-following datasets. Based on this insight, we develop BLEUBERI, a method that first identifies challenging instructions and then applies Group Relative Policy Optimization (GRPO) using BLEU directly as the reward function. We demonstrate that BLEUBERI-trained models are competitive with models trained via reward model-guided RL across four challenging instruction-following benchmarks and three different base language models. A human evaluation further supports that the quality of BLEUBERI model outputs is on par with those from reward model-aligned models. Moreover, BLEUBERI models generate outputs that are more factually grounded than competing methods. Overall, we show that given access to high-quality reference outputs (easily obtained via existing instruction-following datasets or synthetic data generation), string matching-based metrics are cheap yet effective proxies for reward models during alignment. We release our code and data at https://github.com/lilakk/BLEUBERI.

Summary

AI-Generated Summary

PDF32May 22, 2025