BLEUBERI : BLEU s'avère être une récompense étonnamment efficace pour le suivi d'instructions

papers.abstract

Les modèles de récompense sont essentiels pour aligner les LLM avec les préférences humaines, mais leur entraînement est coûteux, nécessitant des données de préférence annotées à grande échelle et des modèles de langage pré-entraînés puissants. Parallèlement, la disponibilité croissante de jeux de données synthétiques de haute qualité pour le suivi d'instructions soulève la question : des métriques de référence plus simples peuvent-elles servir d'alternatives viables aux modèles de récompense lors de l'alignement basé sur l'apprentissage par renforcement (RL) ? Dans cet article, nous montrons d'abord que BLEU, une métrique de base de correspondance de chaînes, correspond de manière surprenante aux modèles de récompense forts en termes d'accord avec les préférences humaines sur des jeux de données généraux de suivi d'instructions. Sur la base de cette observation, nous développons BLEUBERI, une méthode qui identifie d'abord les instructions difficiles, puis applique l'Optimisation Relative de Politique par Groupe (GRPO) en utilisant directement BLEU comme fonction de récompense. Nous démontrons que les modèles entraînés avec BLEUBERI sont compétitifs avec les modèles entraînés via un RL guidé par un modèle de récompense sur quatre benchmarks difficiles de suivi d'instructions et trois modèles de langage de base différents. Une évaluation humaine confirme en outre que la qualité des sorties des modèles BLEUBERI est comparable à celle des modèles alignés par un modèle de récompense. De plus, les modèles BLEUBERI génèrent des sorties plus ancrées dans les faits que les méthodes concurrentes. Globalement, nous montrons que, avec un accès à des sorties de référence de haute qualité (facilement obtenues via des jeux de données existants de suivi d'instructions ou la génération de données synthétiques), les métriques basées sur la correspondance de chaînes sont des substituts peu coûteux mais efficaces aux modèles de récompense lors de l'alignement. Nous publions notre code et nos données sur https://github.com/lilakk/BLEUBERI.

English

Reward models are central to aligning LLMs with human preferences, but they are costly to train, requiring large-scale human-labeled preference data and powerful pretrained LLM backbones. Meanwhile, the increasing availability of high-quality synthetic instruction-following datasets raises the question: can simpler, reference-based metrics serve as viable alternatives to reward models during RL-based alignment? In this paper, we show first that BLEU, a basic string-matching metric, surprisingly matches strong reward models in agreement with human preferences on general instruction-following datasets. Based on this insight, we develop BLEUBERI, a method that first identifies challenging instructions and then applies Group Relative Policy Optimization (GRPO) using BLEU directly as the reward function. We demonstrate that BLEUBERI-trained models are competitive with models trained via reward model-guided RL across four challenging instruction-following benchmarks and three different base language models. A human evaluation further supports that the quality of BLEUBERI model outputs is on par with those from reward model-aligned models. Moreover, BLEUBERI models generate outputs that are more factually grounded than competing methods. Overall, we show that given access to high-quality reference outputs (easily obtained via existing instruction-following datasets or synthetic data generation), string matching-based metrics are cheap yet effective proxies for reward models during alignment. We release our code and data at https://github.com/lilakk/BLEUBERI.

BLEUBERI : BLEU s'avère être une récompense étonnamment efficace pour le suivi d'instructions

BLEUBERI: BLEU is a surprisingly effective reward for instruction following

papers.abstract

Support