BLEUBERI: BLEU erweist sich als überraschend effektive Belohnung für die Befolgung von Anweisungen.

papers.abstract

Belohnungsmodelle sind zentral für die Ausrichtung von LLMs an menschlichen Präferenzen, aber sie sind kostspielig zu trainieren, da sie groß angelegte, von Menschen annotierte Präferenzdaten und leistungsstarke vortrainierte LLM-Backbones erfordern. Gleichzeitig wirft die zunehmende Verfügbarkeit von hochwertigen synthetischen Datensätzen zur Befolgung von Anleitungen die Frage auf: Können einfachere, referenzbasierte Metriken als praktikable Alternativen zu Belohnungsmodellen während der RL-basierten Ausrichtung dienen? In diesem Artikel zeigen wir zunächst, dass BLEU, eine grundlegende String-Matching-Metrik, überraschenderweise starke Belohnungsmodelle in der Übereinstimmung mit menschlichen Präferenzen auf allgemeinen Datensätzen zur Befolgung von Anleitungen erreicht. Basierend auf dieser Erkenntnis entwickeln wir BLEUBERI, eine Methode, die zunächst herausfordernde Anweisungen identifiziert und dann Group Relative Policy Optimization (GRPO) anwendet, wobei BLEU direkt als Belohnungsfunktion verwendet wird. Wir demonstrieren, dass mit BLEUBERI trainierte Modelle mit Modellen, die über RL mit Belohnungsmodellen trainiert wurden, auf vier anspruchsvollen Benchmarks zur Befolgung von Anleitungen und drei verschiedenen Basissprachmodellen konkurrieren können. Eine menschliche Bewertung unterstützt weiterhin, dass die Qualität der BLEUBERI-Modellausgaben auf dem Niveau derjenigen von mit Belohnungsmodellen ausgerichteten Modellen liegt. Darüber hinaus generieren BLEUBERI-Modelle Ausgaben, die faktenbasierter sind als die konkurrierender Methoden. Insgesamt zeigen wir, dass bei Zugriff auf hochwertige Referenzausgaben (leicht über bestehende Datensätze zur Befolgung von Anleitungen oder synthetische Datengenerierung erhältlich), String-Matching-basierte Metriken kostengünstige, aber effektive Stellvertreter für Belohnungsmodelle während der Ausrichtung sind. Wir veröffentlichen unseren Code und unsere Daten unter https://github.com/lilakk/BLEUBERI.

English

Reward models are central to aligning LLMs with human preferences, but they are costly to train, requiring large-scale human-labeled preference data and powerful pretrained LLM backbones. Meanwhile, the increasing availability of high-quality synthetic instruction-following datasets raises the question: can simpler, reference-based metrics serve as viable alternatives to reward models during RL-based alignment? In this paper, we show first that BLEU, a basic string-matching metric, surprisingly matches strong reward models in agreement with human preferences on general instruction-following datasets. Based on this insight, we develop BLEUBERI, a method that first identifies challenging instructions and then applies Group Relative Policy Optimization (GRPO) using BLEU directly as the reward function. We demonstrate that BLEUBERI-trained models are competitive with models trained via reward model-guided RL across four challenging instruction-following benchmarks and three different base language models. A human evaluation further supports that the quality of BLEUBERI model outputs is on par with those from reward model-aligned models. Moreover, BLEUBERI models generate outputs that are more factually grounded than competing methods. Overall, we show that given access to high-quality reference outputs (easily obtained via existing instruction-following datasets or synthetic data generation), string matching-based metrics are cheap yet effective proxies for reward models during alignment. We release our code and data at https://github.com/lilakk/BLEUBERI.

BLEUBERI: BLEU erweist sich als überraschend effektive Belohnung für die Befolgung von Anweisungen.

BLEUBERI: BLEU is a surprisingly effective reward for instruction following

papers.abstract

Support