BLEUBERI : BLEU s'avère être une récompense étonnamment efficace pour le suivi d'instructions
BLEUBERI: BLEU is a surprisingly effective reward for instruction following
May 16, 2025
Auteurs: Yapei Chang, Yekyung Kim, Michael Krumdick, Amir Zadeh, Chuan Li, Chris Tanner, Mohit Iyyer
cs.AI
Résumé
Les modèles de récompense sont essentiels pour aligner les LLM avec les préférences humaines, mais leur entraînement est coûteux, nécessitant des données de préférence annotées à grande échelle et des modèles de langage pré-entraînés puissants. Parallèlement, la disponibilité croissante de jeux de données synthétiques de haute qualité pour le suivi d'instructions soulève la question : des métriques de référence plus simples peuvent-elles servir d'alternatives viables aux modèles de récompense lors de l'alignement basé sur l'apprentissage par renforcement (RL) ? Dans cet article, nous montrons d'abord que BLEU, une métrique de base de correspondance de chaînes, correspond de manière surprenante aux modèles de récompense forts en termes d'accord avec les préférences humaines sur des jeux de données généraux de suivi d'instructions. Sur la base de cette observation, nous développons BLEUBERI, une méthode qui identifie d'abord les instructions difficiles, puis applique l'Optimisation Relative de Politique par Groupe (GRPO) en utilisant directement BLEU comme fonction de récompense. Nous démontrons que les modèles entraînés avec BLEUBERI sont compétitifs avec les modèles entraînés via un RL guidé par un modèle de récompense sur quatre benchmarks difficiles de suivi d'instructions et trois modèles de langage de base différents. Une évaluation humaine confirme en outre que la qualité des sorties des modèles BLEUBERI est comparable à celle des modèles alignés par un modèle de récompense. De plus, les modèles BLEUBERI génèrent des sorties plus ancrées dans les faits que les méthodes concurrentes. Globalement, nous montrons que, avec un accès à des sorties de référence de haute qualité (facilement obtenues via des jeux de données existants de suivi d'instructions ou la génération de données synthétiques), les métriques basées sur la correspondance de chaînes sont des substituts peu coûteux mais efficaces aux modèles de récompense lors de l'alignement. Nous publions notre code et nos données sur https://github.com/lilakk/BLEUBERI.
English
Reward models are central to aligning LLMs with human preferences, but they
are costly to train, requiring large-scale human-labeled preference data and
powerful pretrained LLM backbones. Meanwhile, the increasing availability of
high-quality synthetic instruction-following datasets raises the question: can
simpler, reference-based metrics serve as viable alternatives to reward models
during RL-based alignment? In this paper, we show first that BLEU, a basic
string-matching metric, surprisingly matches strong reward models in agreement
with human preferences on general instruction-following datasets. Based on this
insight, we develop BLEUBERI, a method that first identifies challenging
instructions and then applies Group Relative Policy Optimization (GRPO) using
BLEU directly as the reward function. We demonstrate that BLEUBERI-trained
models are competitive with models trained via reward model-guided RL across
four challenging instruction-following benchmarks and three different base
language models. A human evaluation further supports that the quality of
BLEUBERI model outputs is on par with those from reward model-aligned models.
Moreover, BLEUBERI models generate outputs that are more factually grounded
than competing methods. Overall, we show that given access to high-quality
reference outputs (easily obtained via existing instruction-following datasets
or synthetic data generation), string matching-based metrics are cheap yet
effective proxies for reward models during alignment. We release our code and
data at https://github.com/lilakk/BLEUBERI.Summary
AI-Generated Summary