Het beste van N werelden: Het afstemmen van reinforcement learning met Best-of-N sampling via max@k optimalisatie

Samenvatting

De toepassing van Reinforcement Learning met Verifieerbare Beloningen (RLVR) op wiskundige en programmeerdomeinen heeft aanzienlijke verbeteringen aangetoond in de redeneer- en probleemoplossende vermogens van Large Language Models. Ondanks het succes bij het oplossen van problemen met een enkele generatie, kan het reinforcement learning fine-tuning proces het exploratievermogen van het model schaden, wat zich uit in een verminderde diversiteit van generaties en een daaruit voortvloeiende prestatievermindering tijdens Best-of-N sampling voor grote N-waarden. In dit werk richten we ons op het optimaliseren van de max@k-metriek, een continue generalisatie van pass@k. We leiden een zuivere on-policy gradient schatting af voor directe optimalisatie van deze metriek. Bovendien breiden we onze afleidingen uit naar off-policy updates, een veelvoorkomend element in moderne RLVR-algoritmen, wat een betere steekproevefficiëntie mogelijk maakt. Empirisch tonen we aan dat onze doelstelling effectief de max@k-metriek optimaliseert in off-policy scenario's, waardoor het model wordt afgestemd op de Best-of-N inferentiestrategie.

English

The application of Reinforcement Learning with Verifiable Rewards (RLVR) to mathematical and coding domains has demonstrated significant improvements in the reasoning and problem-solving abilities of Large Language Models. Despite its success in single generation problem solving, the reinforcement learning fine-tuning process may harm the model's exploration ability, as reflected in decreased diversity of generations and a resulting degradation of performance during Best-of-N sampling for large N values. In this work, we focus on optimizing the max@k metric, a continuous generalization of pass@k. We derive an unbiased on-policy gradient estimate for direct optimization of this metric. Furthermore, we extend our derivations to the off-policy updates, a common element in modern RLVR algorithms, that allows better sample efficiency. Empirically, we show that our objective effectively optimizes max@k metric in off-policy scenarios, aligning the model with the Best-of-N inference strategy.

Het beste van N werelden: Het afstemmen van reinforcement learning met Best-of-N sampling via max@k optimalisatie

The Best of N Worlds: Aligning Reinforcement Learning with Best-of-N Sampling via max@k Optimisation

Samenvatting

Support