BLEUBERI: BLEU erweist sich als überraschend effektive Belohnung für die Befolgung von Anweisungen.
BLEUBERI: BLEU is a surprisingly effective reward for instruction following
May 16, 2025
Autoren: Yapei Chang, Yekyung Kim, Michael Krumdick, Amir Zadeh, Chuan Li, Chris Tanner, Mohit Iyyer
cs.AI
Zusammenfassung
Belohnungsmodelle sind zentral für die Ausrichtung von LLMs an menschlichen Präferenzen, aber sie sind kostspielig zu trainieren, da sie groß angelegte, von Menschen annotierte Präferenzdaten und leistungsstarke vortrainierte LLM-Backbones erfordern. Gleichzeitig wirft die zunehmende Verfügbarkeit von hochwertigen synthetischen Datensätzen zur Befolgung von Anleitungen die Frage auf: Können einfachere, referenzbasierte Metriken als praktikable Alternativen zu Belohnungsmodellen während der RL-basierten Ausrichtung dienen? In diesem Artikel zeigen wir zunächst, dass BLEU, eine grundlegende String-Matching-Metrik, überraschenderweise starke Belohnungsmodelle in der Übereinstimmung mit menschlichen Präferenzen auf allgemeinen Datensätzen zur Befolgung von Anleitungen erreicht. Basierend auf dieser Erkenntnis entwickeln wir BLEUBERI, eine Methode, die zunächst herausfordernde Anweisungen identifiziert und dann Group Relative Policy Optimization (GRPO) anwendet, wobei BLEU direkt als Belohnungsfunktion verwendet wird. Wir demonstrieren, dass mit BLEUBERI trainierte Modelle mit Modellen, die über RL mit Belohnungsmodellen trainiert wurden, auf vier anspruchsvollen Benchmarks zur Befolgung von Anleitungen und drei verschiedenen Basissprachmodellen konkurrieren können. Eine menschliche Bewertung unterstützt weiterhin, dass die Qualität der BLEUBERI-Modellausgaben auf dem Niveau derjenigen von mit Belohnungsmodellen ausgerichteten Modellen liegt. Darüber hinaus generieren BLEUBERI-Modelle Ausgaben, die faktenbasierter sind als die konkurrierender Methoden. Insgesamt zeigen wir, dass bei Zugriff auf hochwertige Referenzausgaben (leicht über bestehende Datensätze zur Befolgung von Anleitungen oder synthetische Datengenerierung erhältlich), String-Matching-basierte Metriken kostengünstige, aber effektive Stellvertreter für Belohnungsmodelle während der Ausrichtung sind. Wir veröffentlichen unseren Code und unsere Daten unter https://github.com/lilakk/BLEUBERI.
English
Reward models are central to aligning LLMs with human preferences, but they
are costly to train, requiring large-scale human-labeled preference data and
powerful pretrained LLM backbones. Meanwhile, the increasing availability of
high-quality synthetic instruction-following datasets raises the question: can
simpler, reference-based metrics serve as viable alternatives to reward models
during RL-based alignment? In this paper, we show first that BLEU, a basic
string-matching metric, surprisingly matches strong reward models in agreement
with human preferences on general instruction-following datasets. Based on this
insight, we develop BLEUBERI, a method that first identifies challenging
instructions and then applies Group Relative Policy Optimization (GRPO) using
BLEU directly as the reward function. We demonstrate that BLEUBERI-trained
models are competitive with models trained via reward model-guided RL across
four challenging instruction-following benchmarks and three different base
language models. A human evaluation further supports that the quality of
BLEUBERI model outputs is on par with those from reward model-aligned models.
Moreover, BLEUBERI models generate outputs that are more factually grounded
than competing methods. Overall, we show that given access to high-quality
reference outputs (easily obtained via existing instruction-following datasets
or synthetic data generation), string matching-based metrics are cheap yet
effective proxies for reward models during alignment. We release our code and
data at https://github.com/lilakk/BLEUBERI.Summary
AI-Generated Summary