Versnellen van Nash-leren via menselijke feedback met behulp van Mirror Prox
Accelerating Nash Learning from Human Feedback via Mirror Prox
May 26, 2025
Auteurs: Daniil Tiapkin, Daniele Calandriello, Denis Belomestny, Eric Moulines, Alexey Naumov, Kashif Rasul, Michal Valko, Pierre Menard
cs.AI
Samenvatting
Traditionele Reinforcement Learning from Human Feedback (RLHF) maakt vaak gebruik van beloningsmodellen, waarbij vaak voorkeursstructuren zoals het Bradley-Terry-model worden aangenomen, die mogelijk niet nauwkeurig de complexiteit van echte menselijke voorkeuren vastleggen (bijvoorbeeld intransitiviteit). Nash Learning from Human Feedback (NLHF) biedt een directer alternatief door het probleem te formuleren als het vinden van een Nash-evenwicht van een spel dat door deze voorkeuren wordt gedefinieerd. In dit werk introduceren we Nash Mirror Prox (Nash-MP), een online NLHF-algoritme dat gebruikmaakt van het Mirror Prox-optimalisatieschema om snelle en stabiele convergentie naar het Nash-evenwicht te bereiken. Onze theoretische analyse toont aan dat Nash-MP lineaire convergentie van de laatste iteratie vertoont naar het bèta-geregulariseerde Nash-evenwicht. Specifiek bewijzen we dat de KL-divergentie naar het optimale beleid afneemt met een snelheid van de orde (1+2beta)^{-N/2}, waarbij N het aantal voorkeursvragen is. We tonen verder lineaire convergentie van de laatste iteratie aan voor de exploitatiekloof en uniform voor de span semi-norm van log-kansen, waarbij al deze snelheden onafhankelijk zijn van de grootte van de actieruimte. Bovendien stellen we een benaderde versie van Nash-MP voor en analyseren we deze, waarbij proximale stappen worden geschat met behulp van stochastische beleidsgradiënten, wat het algoritme dichter bij toepassingen brengt. Tot slot beschrijven we een praktische implementatiestrategie voor het finetunen van grote taalmodellen en presenteren we experimenten die de competitieve prestaties en compatibiliteit met bestaande methoden aantonen.
English
Traditional Reinforcement Learning from Human Feedback (RLHF) often relies on
reward models, frequently assuming preference structures like the Bradley-Terry
model, which may not accurately capture the complexities of real human
preferences (e.g., intransitivity). Nash Learning from Human Feedback (NLHF)
offers a more direct alternative by framing the problem as finding a Nash
equilibrium of a game defined by these preferences. In this work, we introduce
Nash Mirror Prox (Nash-MP), an online NLHF algorithm that leverages
the Mirror Prox optimization scheme to achieve fast and stable convergence to
the Nash equilibrium. Our theoretical analysis establishes that Nash-MP
exhibits last-iterate linear convergence towards the beta-regularized Nash
equilibrium. Specifically, we prove that the KL-divergence to the optimal
policy decreases at a rate of order (1+2beta)^{-N/2}, where N is a number
of preference queries. We further demonstrate last-iterate linear convergence
for the exploitability gap and uniformly for the span semi-norm of
log-probabilities, with all these rates being independent of the size of the
action space. Furthermore, we propose and analyze an approximate version of
Nash-MP where proximal steps are estimated using stochastic policy gradients,
making the algorithm closer to applications. Finally, we detail a practical
implementation strategy for fine-tuning large language models and present
experiments that demonstrate its competitive performance and compatibility with
existing methods.