ChatPaper.aiChatPaper

BLEUBERI: BLEU si rivela una ricompensa sorprendentemente efficace per il rispetto delle istruzioni

BLEUBERI: BLEU is a surprisingly effective reward for instruction following

May 16, 2025
Autori: Yapei Chang, Yekyung Kim, Michael Krumdick, Amir Zadeh, Chuan Li, Chris Tanner, Mohit Iyyer
cs.AI

Abstract

I modelli di ricompensa sono fondamentali per allineare i LLM (Large Language Models) alle preferenze umane, ma sono costosi da addestrare, richiedendo dati su larga scala etichettati da esseri umani e potenti backbone di LLM preaddestrati. Nel frattempo, la crescente disponibilità di dataset sintetici di alta qualità per il seguimento di istruzioni solleva la domanda: metriche più semplici, basate su riferimenti, possono fungere da alternative valide ai modelli di ricompensa durante l'allineamento basato su RL (Reinforcement Learning)? In questo articolo, dimostriamo innanzitutto che BLEU, una metrica di base per la corrispondenza di stringhe, sorprendentemente eguaglia i modelli di ricompensa più robusti nel concordare con le preferenze umane su dataset generali di seguimento di istruzioni. Sulla base di questa intuizione, sviluppiamo BLEUBERI, un metodo che prima identifica istruzioni complesse e poi applica l'ottimizzazione relativa delle politiche di gruppo (GRPO) utilizzando direttamente BLEU come funzione di ricompensa. Dimostriamo che i modelli addestrati con BLEUBERI sono competitivi rispetto ai modelli addestrati tramite RL guidato da modelli di ricompensa su quattro benchmark impegnativi di seguimento di istruzioni e tre diversi modelli linguistici di base. Una valutazione umana supporta ulteriormente che la qualità degli output dei modelli BLEUBERI è alla pari con quella dei modelli allineati tramite modelli di ricompensa. Inoltre, i modelli BLEUBERI generano output più ancorati ai fatti rispetto ai metodi concorrenti. Nel complesso, mostriamo che, data la disponibilità di output di riferimento di alta qualità (facilmente ottenibili tramite dataset esistenti di seguimento di istruzioni o generazione di dati sintetici), le metriche basate sulla corrispondenza di stringhe sono proxy economici ma efficaci per i modelli di ricompensa durante l'allineamento. Rilasciamo il nostro codice e i dati su https://github.com/lilakk/BLEUBERI.
English
Reward models are central to aligning LLMs with human preferences, but they are costly to train, requiring large-scale human-labeled preference data and powerful pretrained LLM backbones. Meanwhile, the increasing availability of high-quality synthetic instruction-following datasets raises the question: can simpler, reference-based metrics serve as viable alternatives to reward models during RL-based alignment? In this paper, we show first that BLEU, a basic string-matching metric, surprisingly matches strong reward models in agreement with human preferences on general instruction-following datasets. Based on this insight, we develop BLEUBERI, a method that first identifies challenging instructions and then applies Group Relative Policy Optimization (GRPO) using BLEU directly as the reward function. We demonstrate that BLEUBERI-trained models are competitive with models trained via reward model-guided RL across four challenging instruction-following benchmarks and three different base language models. A human evaluation further supports that the quality of BLEUBERI model outputs is on par with those from reward model-aligned models. Moreover, BLEUBERI models generate outputs that are more factually grounded than competing methods. Overall, we show that given access to high-quality reference outputs (easily obtained via existing instruction-following datasets or synthetic data generation), string matching-based metrics are cheap yet effective proxies for reward models during alignment. We release our code and data at https://github.com/lilakk/BLEUBERI.
PDF52May 22, 2025