BLEUBERI: 指示追従における驚くほど効果的な報酬としてのBLEU
BLEUBERI: BLEU is a surprisingly effective reward for instruction following
May 16, 2025
著者: Yapei Chang, Yekyung Kim, Michael Krumdick, Amir Zadeh, Chuan Li, Chris Tanner, Mohit Iyyer
cs.AI
要旨
報酬モデルは、LLMを人間の好みに合わせる上で中心的な役割を果たしますが、大規模な人間によるラベル付き選好データと強力な事前学習済みLLMバックボーンを必要とするため、訓練に多大なコストがかかります。一方で、高品質な合成指示追従データセットの利用可能性が高まっていることから、RLベースのアライメントにおいて、よりシンプルな参照ベースのメトリクスが報酬モデルの代替として有効かどうかという疑問が生じます。本論文では、まず基本的な文字列マッチングメトリクスであるBLEUが、一般的な指示追従データセットにおいて、強力な報酬モデルと同等に人間の好みと一致することを示します。この洞察に基づき、BLEUBERIという手法を開発しました。BLEUBERIは、まず挑戦的な指示を特定し、その後BLEUを直接報酬関数として使用するGroup Relative Policy Optimization(GRPO)を適用します。BLEUBERIで訓練されたモデルは、4つの挑戦的な指示追従ベンチマークと3つの異なるベース言語モデルにおいて、報酬モデルに基づくRLで訓練されたモデルと同等の性能を示すことを実証します。さらに、人間による評価でも、BLEUBERIモデルの出力品質が報酬モデルに基づくモデルと同等であることが支持されています。また、BLEUBERIモデルは、競合する手法よりも事実に基づいた出力を生成します。全体として、高品質な参照出力(既存の指示追従データセットや合成データ生成により容易に入手可能)が利用可能であれば、文字列マッチングベースのメトリクスは、アライメント中の報酬モデルに対する安価かつ効果的な代替手段であることを示します。コードとデータはhttps://github.com/lilakk/BLEUBERIで公開しています。
English
Reward models are central to aligning LLMs with human preferences, but they
are costly to train, requiring large-scale human-labeled preference data and
powerful pretrained LLM backbones. Meanwhile, the increasing availability of
high-quality synthetic instruction-following datasets raises the question: can
simpler, reference-based metrics serve as viable alternatives to reward models
during RL-based alignment? In this paper, we show first that BLEU, a basic
string-matching metric, surprisingly matches strong reward models in agreement
with human preferences on general instruction-following datasets. Based on this
insight, we develop BLEUBERI, a method that first identifies challenging
instructions and then applies Group Relative Policy Optimization (GRPO) using
BLEU directly as the reward function. We demonstrate that BLEUBERI-trained
models are competitive with models trained via reward model-guided RL across
four challenging instruction-following benchmarks and three different base
language models. A human evaluation further supports that the quality of
BLEUBERI model outputs is on par with those from reward model-aligned models.
Moreover, BLEUBERI models generate outputs that are more factually grounded
than competing methods. Overall, we show that given access to high-quality
reference outputs (easily obtained via existing instruction-following datasets
or synthetic data generation), string matching-based metrics are cheap yet
effective proxies for reward models during alignment. We release our code and
data at https://github.com/lilakk/BLEUBERI.