ChatPaper.aiChatPaper

RRM:堅牢な報酬モデルトレーニングは報酬ハッキングを軽減します。

RRM: Robust Reward Model Training Mitigates Reward Hacking

September 20, 2024
著者: Tianqi Liu, Wei Xiong, Jie Ren, Lichang Chen, Junru Wu, Rishabh Joshi, Yang Gao, Jiaming Shen, Zhen Qin, Tianhe Yu, Daniel Sohn, Anastasiia Makarova, Jeremiah Liu, Yuan Liu, Bilal Piot, Abe Ittycheriah, Aviral Kumar, Mohammad Saleh
cs.AI

要旨

報酬モデル(RMs)は、大規模言語モデル(LLMs)を人間の好みに整合させる上で重要な役割を果たしています。しかしながら、特定のプロンプトに関連付けられた応答ペアに依存する従来のRMトレーニングは、応答の長さや形式などのプロンプトに依存しないアーティファクトとプロンプト駆動の好みを区別するのに苦労しています。本研究では、現在のRMトレーニング方法の根本的な制限を明らかにし、RMsが好みを決定する際に文脈的なシグナルと無関係なアーティファクトを効果的に区別できないことを示しています。この問題に対処するために、これらのアーティファクトとは独立した好みを学習する因果関係フレームワークを導入し、それらを排除するために設計された新しいデータ拡張技術を提案しています。広範な実験により、当社の手法が望ましくないアーティファクトを除去し、より堅牢な報酬モデル(RRM)を生み出すことに成功したことが示されています。当社のRRMは、Gemma-2-9b-itでトレーニングされたペアワイズ報酬モデルのパフォーマンスを向上させ、RewardBenchでの精度を80.61%から84.15%に向上させました。さらに、RMとRRMの両方を使用して2つのDPOポリシーをトレーニングし、RRMがDPOに整合したポリシーを大幅に向上させ、MT-Benchスコアを7.27から8.31に、AlpacaEval-2の長さ制御された勝率を33.46%から52.49%に向上させることを示しています。
English
Reward models (RMs) play a pivotal role in aligning large language models (LLMs) with human preferences. However, traditional RM training, which relies on response pairs tied to specific prompts, struggles to disentangle prompt-driven preferences from prompt-independent artifacts, such as response length and format. In this work, we expose a fundamental limitation of current RM training methods, where RMs fail to effectively distinguish between contextual signals and irrelevant artifacts when determining preferences. To address this, we introduce a causal framework that learns preferences independent of these artifacts and propose a novel data augmentation technique designed to eliminate them. Extensive experiments show that our approach successfully filters out undesirable artifacts, yielding a more robust reward model (RRM). Our RRM improves the performance of a pairwise reward model trained on Gemma-2-9b-it, on RewardBench, increasing accuracy from 80.61% to 84.15%. Additionally, we train two DPO policies using both the RM and RRM, demonstrating that the RRM significantly enhances DPO-aligned policies, improving MT-Bench scores from 7.27 to 8.31 and length-controlled win-rates in AlpacaEval-2 from 33.46% to 52.49%.

Summary

AI-Generated Summary

PDF52November 16, 2024