ChatPaper.aiChatPaper

Het beste van N werelden: Het afstemmen van reinforcement learning met Best-of-N sampling via max@k optimalisatie

The Best of N Worlds: Aligning Reinforcement Learning with Best-of-N Sampling via max@k Optimisation

October 27, 2025
Auteurs: Farid Bagirov, Mikhail Arkhipov, Ksenia Sycheva, Evgeniy Glukhov, Egor Bogomolov
cs.AI

Samenvatting

De toepassing van Reinforcement Learning met Verifieerbare Beloningen (RLVR) op wiskundige en programmeerdomeinen heeft aanzienlijke verbeteringen aangetoond in de redeneer- en probleemoplossende vermogens van Large Language Models. Ondanks het succes bij het oplossen van problemen met een enkele generatie, kan het reinforcement learning fine-tuning proces het exploratievermogen van het model schaden, wat zich uit in een verminderde diversiteit van generaties en een daaruit voortvloeiende prestatievermindering tijdens Best-of-N sampling voor grote N-waarden. In dit werk richten we ons op het optimaliseren van de max@k-metriek, een continue generalisatie van pass@k. We leiden een zuivere on-policy gradient schatting af voor directe optimalisatie van deze metriek. Bovendien breiden we onze afleidingen uit naar off-policy updates, een veelvoorkomend element in moderne RLVR-algoritmen, wat een betere steekproevefficiëntie mogelijk maakt. Empirisch tonen we aan dat onze doelstelling effectief de max@k-metriek optimaliseert in off-policy scenario's, waardoor het model wordt afgestemd op de Best-of-N inferentiestrategie.
English
The application of Reinforcement Learning with Verifiable Rewards (RLVR) to mathematical and coding domains has demonstrated significant improvements in the reasoning and problem-solving abilities of Large Language Models. Despite its success in single generation problem solving, the reinforcement learning fine-tuning process may harm the model's exploration ability, as reflected in decreased diversity of generations and a resulting degradation of performance during Best-of-N sampling for large N values. In this work, we focus on optimizing the max@k metric, a continuous generalization of pass@k. We derive an unbiased on-policy gradient estimate for direct optimization of this metric. Furthermore, we extend our derivations to the off-policy updates, a common element in modern RLVR algorithms, that allows better sample efficiency. Empirically, we show that our objective effectively optimizes max@k metric in off-policy scenarios, aligning the model with the Best-of-N inference strategy.
PDF201December 31, 2025