Versnellen van Nash-leren via menselijke feedback met behulp van Mirror Prox

Samenvatting

Traditionele Reinforcement Learning from Human Feedback (RLHF) maakt vaak gebruik van beloningsmodellen, waarbij vaak voorkeursstructuren zoals het Bradley-Terry-model worden aangenomen, die mogelijk niet nauwkeurig de complexiteit van echte menselijke voorkeuren vastleggen (bijvoorbeeld intransitiviteit). Nash Learning from Human Feedback (NLHF) biedt een directer alternatief door het probleem te formuleren als het vinden van een Nash-evenwicht van een spel dat door deze voorkeuren wordt gedefinieerd. In dit werk introduceren we Nash Mirror Prox (Nash-MP), een online NLHF-algoritme dat gebruikmaakt van het Mirror Prox-optimalisatieschema om snelle en stabiele convergentie naar het Nash-evenwicht te bereiken. Onze theoretische analyse toont aan dat Nash-MP lineaire convergentie van de laatste iteratie vertoont naar het bèta-geregulariseerde Nash-evenwicht. Specifiek bewijzen we dat de KL-divergentie naar het optimale beleid afneemt met een snelheid van de orde (1+2beta)^{-N/2}, waarbij N het aantal voorkeursvragen is. We tonen verder lineaire convergentie van de laatste iteratie aan voor de exploitatiekloof en uniform voor de span semi-norm van log-kansen, waarbij al deze snelheden onafhankelijk zijn van de grootte van de actieruimte. Bovendien stellen we een benaderde versie van Nash-MP voor en analyseren we deze, waarbij proximale stappen worden geschat met behulp van stochastische beleidsgradiënten, wat het algoritme dichter bij toepassingen brengt. Tot slot beschrijven we een praktische implementatiestrategie voor het finetunen van grote taalmodellen en presenteren we experimenten die de competitieve prestaties en compatibiliteit met bestaande methoden aantonen.

English

Traditional Reinforcement Learning from Human Feedback (RLHF) often relies on reward models, frequently assuming preference structures like the Bradley-Terry model, which may not accurately capture the complexities of real human preferences (e.g., intransitivity). Nash Learning from Human Feedback (NLHF) offers a more direct alternative by framing the problem as finding a Nash equilibrium of a game defined by these preferences. In this work, we introduce Nash Mirror Prox (Nash-MP), an online NLHF algorithm that leverages the Mirror Prox optimization scheme to achieve fast and stable convergence to the Nash equilibrium. Our theoretical analysis establishes that Nash-MP exhibits last-iterate linear convergence towards the beta-regularized Nash equilibrium. Specifically, we prove that the KL-divergence to the optimal policy decreases at a rate of order (1+2beta)^{-N/2}, where N is a number of preference queries. We further demonstrate last-iterate linear convergence for the exploitability gap and uniformly for the span semi-norm of log-probabilities, with all these rates being independent of the size of the action space. Furthermore, we propose and analyze an approximate version of Nash-MP where proximal steps are estimated using stochastic policy gradients, making the algorithm closer to applications. Finally, we detail a practical implementation strategy for fine-tuning large language models and present experiments that demonstrate its competitive performance and compatibility with existing methods.

Versnellen van Nash-leren via menselijke feedback met behulp van Mirror Prox

Accelerating Nash Learning from Human Feedback via Mirror Prox

Samenvatting

Support