ChatPaper.aiChatPaper

BLEUBERI: BLEU is een verrassend effectieve beloning voor het opvolgen van instructies

BLEUBERI: BLEU is a surprisingly effective reward for instruction following

May 16, 2025
Auteurs: Yapei Chang, Yekyung Kim, Michael Krumdick, Amir Zadeh, Chuan Li, Chris Tanner, Mohit Iyyer
cs.AI

Samenvatting

Beloningsmodellen zijn cruciaal voor het afstemmen van grote taalmodellen (LLMs) op menselijke voorkeuren, maar ze zijn kostbaar om te trainen, omdat ze grootschalige, door mensen gelabelde voorkeursdata en krachtige, vooraf getrainde LLM-backbones vereisen. Tegelijkertijd roept de toenemende beschikbaarheid van hoogwaardige synthetische datasets voor instructievolging de vraag op: kunnen eenvoudigere, referentiegebaseerde metrieken dienen als haalbare alternatieven voor beloningsmodellen tijdens op reinforcement learning (RL) gebaseerde afstemming? In dit artikel tonen we eerst aan dat BLEU, een eenvoudige string-matchingmetriek, verrassend genoeg sterke beloningsmodellen evenaart in overeenstemming met menselijke voorkeuren op algemene datasets voor instructievolging. Gebaseerd op dit inzicht ontwikkelen we BLEUBERI, een methode die eerst uitdagende instructies identificeert en vervolgens Group Relative Policy Optimization (GRPO) toepast met BLEU direct als beloningsfunctie. We demonstreren dat modellen getraind met BLEUBERI concurrerend zijn met modellen die zijn getraind via RL geleid door beloningsmodellen, over vier uitdagende benchmarks voor instructievolging en drie verschillende basis-taalmodellen. Een menselijke evaluatie ondersteunt verder dat de kwaliteit van de uitvoer van BLEUBERI-modellen op hetzelfde niveau ligt als die van modellen die zijn afgestemd met beloningsmodellen. Bovendien genereren BLEUBERI-modellen uitvoer die feitelijk beter onderbouwd is dan die van concurrerende methoden. Over het geheel genomen tonen we aan dat, gegeven toegang tot hoogwaardige referentie-uitvoer (eenvoudig te verkrijgen via bestaande datasets voor instructievolging of synthetische datageneratie), string-matchinggebaseerde metrieken goedkope maar effectieve proxies zijn voor beloningsmodellen tijdens afstemming. We maken onze code en data beschikbaar op https://github.com/lilakk/BLEUBERI.
English
Reward models are central to aligning LLMs with human preferences, but they are costly to train, requiring large-scale human-labeled preference data and powerful pretrained LLM backbones. Meanwhile, the increasing availability of high-quality synthetic instruction-following datasets raises the question: can simpler, reference-based metrics serve as viable alternatives to reward models during RL-based alignment? In this paper, we show first that BLEU, a basic string-matching metric, surprisingly matches strong reward models in agreement with human preferences on general instruction-following datasets. Based on this insight, we develop BLEUBERI, a method that first identifies challenging instructions and then applies Group Relative Policy Optimization (GRPO) using BLEU directly as the reward function. We demonstrate that BLEUBERI-trained models are competitive with models trained via reward model-guided RL across four challenging instruction-following benchmarks and three different base language models. A human evaluation further supports that the quality of BLEUBERI model outputs is on par with those from reward model-aligned models. Moreover, BLEUBERI models generate outputs that are more factually grounded than competing methods. Overall, we show that given access to high-quality reference outputs (easily obtained via existing instruction-following datasets or synthetic data generation), string matching-based metrics are cheap yet effective proxies for reward models during alignment. We release our code and data at https://github.com/lilakk/BLEUBERI.
PDF52May 22, 2025