ChatPaper.aiChatPaper

RRM: Addestramento del Modello di Ricompensa Robusto Mitiga l'Hacking della Ricompensa

RRM: Robust Reward Model Training Mitigates Reward Hacking

September 20, 2024
Autori: Tianqi Liu, Wei Xiong, Jie Ren, Lichang Chen, Junru Wu, Rishabh Joshi, Yang Gao, Jiaming Shen, Zhen Qin, Tianhe Yu, Daniel Sohn, Anastasiia Makarova, Jeremiah Liu, Yuan Liu, Bilal Piot, Abe Ittycheriah, Aviral Kumar, Mohammad Saleh
cs.AI

Abstract

I modelli di ricompensa (RMs) svolgono un ruolo cruciale nell'allineare i grandi modelli linguistici (LLMs) con le preferenze umane. Tuttavia, la formazione tradizionale dei RM, che si basa su coppie di risposte legate a prompt specifici, fatica a separare le preferenze guidate dal prompt dagli artefatti indipendenti dal prompt, come la lunghezza e il formato della risposta. In questo lavoro, mettiamo in luce una limitazione fondamentale dei metodi attuali di formazione dei RM, in cui i RM non riescono a distinguere efficacemente tra segnali contestuali e artefatti irrilevanti nella determinazione delle preferenze. Per affrontare questo problema, introduciamo un quadro causale che apprende preferenze indipendenti da tali artefatti e proponiamo una nuova tecnica di aumento dei dati progettata per eliminarli. Estesi esperimenti mostrano che il nostro approccio filtra con successo gli artefatti indesiderati, producendo un modello di ricompensa più robusto (RRM). Il nostro RRM migliora le prestazioni di un modello di ricompensa a coppie addestrato su Gemma-2-9b-it, su RewardBench, aumentando l'accuratezza dall'80,61% all'84,15%. Inoltre, addestriamo due politiche DPO utilizzando sia il RM che il RRM, dimostrando che il RRM migliora significativamente le politiche allineate a DPO, migliorando i punteggi di MT-Bench da 7,27 a 8,31 e le percentuali di vittorie controllate in base alla lunghezza in AlpacaEval-2 dal 33,46% al 52,49%.
English
Reward models (RMs) play a pivotal role in aligning large language models (LLMs) with human preferences. However, traditional RM training, which relies on response pairs tied to specific prompts, struggles to disentangle prompt-driven preferences from prompt-independent artifacts, such as response length and format. In this work, we expose a fundamental limitation of current RM training methods, where RMs fail to effectively distinguish between contextual signals and irrelevant artifacts when determining preferences. To address this, we introduce a causal framework that learns preferences independent of these artifacts and propose a novel data augmentation technique designed to eliminate them. Extensive experiments show that our approach successfully filters out undesirable artifacts, yielding a more robust reward model (RRM). Our RRM improves the performance of a pairwise reward model trained on Gemma-2-9b-it, on RewardBench, increasing accuracy from 80.61% to 84.15%. Additionally, we train two DPO policies using both the RM and RRM, demonstrating that the RRM significantly enhances DPO-aligned policies, improving MT-Bench scores from 7.27 to 8.31 and length-controlled win-rates in AlpacaEval-2 from 33.46% to 52.49%.

Summary

AI-Generated Summary

PDF52November 16, 2024