Iteratieve Nash Policy Optimalisatie: Het Afstemmen van LLM's op Algemene Voorkeuren via No-Regret Leren
Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning
June 30, 2024
Auteurs: Yuheng Zhang, Dian Yu, Baolin Peng, Linfeng Song, Ye Tian, Mingyue Huo, Nan Jiang, Haitao Mi, Dong Yu
cs.AI
Samenvatting
Reinforcement Learning met Menselijke Feedback (RLHF) heeft groot succes geboekt bij het afstemmen van grote taalmmodellen (LLMs) op menselijke voorkeuren. Gangbare RLHF-benaderingen zijn beloningsgebaseerd en volgen de Bradley-Terry (BT) modelaanname, wat mogelijk niet de volledige complexiteit van menselijke voorkeuren vastlegt. In dit artikel verkennen we RLHF binnen een algemeen voorkeurskader en benaderen we het vanuit een speltheoretisch perspectief. Specifiek formuleren we het probleem als een tweespelersspel en introduceren we een nieuw algoritme, iteratieve Nash-beleidsoptimalisatie (INPO). Het kernidee is om het beleid tegen zichzelf te laten spelen via no-regret learning, waardoor het Nash-beleid wordt benaderd. In tegenstelling tot eerdere methoden omzeilt INPO de noodzaak om de verwachte winratio voor individuele reacties te schatten, wat doorgaans hoge rekenkundige of annotatiekosten met zich meebrengt. In plaats daarvan introduceren we een nieuw verliesdoel dat direct wordt geminimaliseerd over een voorkeursdataset. We bieden een theoretische analyse van onze aanpak en demonstreren de effectiviteit ervan via experimenten op diverse representatieve benchmarks. Met een LLaMA-3-8B-gebaseerd SFT-model behaalt INPO een lengtegecontroleerde winratio van 41,5% op AlpacaEval 2.0 en een winratio van 38,3% op Arena-Hard, wat een aanzienlijke verbetering laat zien ten opzichte van het state-of-the-art iteratieve algoritme [Dong et al., 2024] onder de BT modelaanname. Daarnaast benadrukt onze ablatiestudie de voordelen van het incorporeren van KL-regularisatie voor lengtecontrole van reacties.
English
Reinforcement Learning with Human Feedback (RLHF) has achieved great success
in aligning large language models (LLMs) with human preferences. Prevalent RLHF
approaches are reward-based, following the Bradley-Terry (BT) model assumption,
which may not fully capture the complexity of human preferences. In this paper,
we explore RLHF under a general preference framework and approach it from a
game-theoretic perspective. Specifically, we formulate the problem as a
two-player game and propose a novel algorithm, iterative Nash policy
optimization (INPO). The key idea is to let the policy play against itself via
no-regret learning, thereby approximating the Nash policy. Unlike previous
methods, INPO bypasses the need for estimating the expected win rate for
individual responses, which typically incurs high computational or annotation
costs. Instead, we introduce a new loss objective that is directly minimized
over a preference dataset. We provide theoretical analysis for our approach and
demonstrate its effectiveness through experiments on various representative
benchmarks. With an LLaMA-3-8B-based SFT model, INPO achieves a 41.5%
length-controlled win rate on AlpacaEval 2.0 and a 38.3% win rate on
Arena-Hard, showing substantial improvement over the state-of-the-art iterative
algorithm [Dong et al., 2024] under the BT model assumption. Additionally, our
ablation study highlights the benefits of incorporating KL regularization for
response length control.