Iteratieve Nash Policy Optimalisatie: Het Afstemmen van LLM's op Algemene Voorkeuren via No-Regret Leren

Samenvatting

Reinforcement Learning met Menselijke Feedback (RLHF) heeft groot succes geboekt bij het afstemmen van grote taalmmodellen (LLMs) op menselijke voorkeuren. Gangbare RLHF-benaderingen zijn beloningsgebaseerd en volgen de Bradley-Terry (BT) modelaanname, wat mogelijk niet de volledige complexiteit van menselijke voorkeuren vastlegt. In dit artikel verkennen we RLHF binnen een algemeen voorkeurskader en benaderen we het vanuit een speltheoretisch perspectief. Specifiek formuleren we het probleem als een tweespelersspel en introduceren we een nieuw algoritme, iteratieve Nash-beleidsoptimalisatie (INPO). Het kernidee is om het beleid tegen zichzelf te laten spelen via no-regret learning, waardoor het Nash-beleid wordt benaderd. In tegenstelling tot eerdere methoden omzeilt INPO de noodzaak om de verwachte winratio voor individuele reacties te schatten, wat doorgaans hoge rekenkundige of annotatiekosten met zich meebrengt. In plaats daarvan introduceren we een nieuw verliesdoel dat direct wordt geminimaliseerd over een voorkeursdataset. We bieden een theoretische analyse van onze aanpak en demonstreren de effectiviteit ervan via experimenten op diverse representatieve benchmarks. Met een LLaMA-3-8B-gebaseerd SFT-model behaalt INPO een lengtegecontroleerde winratio van 41,5% op AlpacaEval 2.0 en een winratio van 38,3% op Arena-Hard, wat een aanzienlijke verbetering laat zien ten opzichte van het state-of-the-art iteratieve algoritme [Dong et al., 2024] onder de BT modelaanname. Daarnaast benadrukt onze ablatiestudie de voordelen van het incorporeren van KL-regularisatie voor lengtecontrole van reacties.

English

Reinforcement Learning with Human Feedback (RLHF) has achieved great success in aligning large language models (LLMs) with human preferences. Prevalent RLHF approaches are reward-based, following the Bradley-Terry (BT) model assumption, which may not fully capture the complexity of human preferences. In this paper, we explore RLHF under a general preference framework and approach it from a game-theoretic perspective. Specifically, we formulate the problem as a two-player game and propose a novel algorithm, iterative Nash policy optimization (INPO). The key idea is to let the policy play against itself via no-regret learning, thereby approximating the Nash policy. Unlike previous methods, INPO bypasses the need for estimating the expected win rate for individual responses, which typically incurs high computational or annotation costs. Instead, we introduce a new loss objective that is directly minimized over a preference dataset. We provide theoretical analysis for our approach and demonstrate its effectiveness through experiments on various representative benchmarks. With an LLaMA-3-8B-based SFT model, INPO achieves a 41.5% length-controlled win rate on AlpacaEval 2.0 and a 38.3% win rate on Arena-Hard, showing substantial improvement over the state-of-the-art iterative algorithm [Dong et al., 2024] under the BT model assumption. Additionally, our ablation study highlights the benefits of incorporating KL regularization for response length control.

Iteratieve Nash Policy Optimalisatie: Het Afstemmen van LLM's op Algemene Voorkeuren via No-Regret Leren

Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning

Samenvatting

Support