ChatPaper.aiChatPaper

Das Beste aus N Welten: Abgleich von Reinforcement Learning mit Best-of-N Sampling durch max@k-Optimierung

The Best of N Worlds: Aligning Reinforcement Learning with Best-of-N Sampling via max@k Optimisation

October 27, 2025
papers.authors: Farid Bagirov, Mikhail Arkhipov, Ksenia Sycheva, Evgeniy Glukhov, Egor Bogomolov
cs.AI

papers.abstract

Die Anwendung von Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) in mathematischen und Programmierdomänen hat signifikante Verbesserungen der Reasoning- und Problemlösungsfähigkeiten von Large Language Models demonstriert. Trotz der Erfolge bei der Einzelgenerations-Problemlösung kann der Reinforcement-Learning-Feinabstimmungsprozess die Explorationsfähigkeit des Models beeinträchtigen, was sich in einer verringerten Diversität der Generierungen und einer daraus resultierenden Leistungsverschlechterung während Best-of-N-Sampling für große N-Werte äußert. In dieser Arbeit konzentrieren wir uns auf die Optimierung der max@k-Metrik, einer kontinuierlichen Verallgemeinerung von pass@k. Wir leiten eine unverzerrte On-Policy-Gradientenschätzung zur direkten Optimierung dieser Metrik her. Darüber hinaus erweitern wir unsere Herleitungen auf Off-Policy-Updates, einem gängigen Element moderner RLVR-Algorithmen, das eine bessere Stichprobeneffizienz ermöglicht. Empirisch zeigen wir, dass unser Zielkriterium die max@k-Metrik in Off-Policy-Szenarien effektiv optimiert und somit das Modell mit der Best-of-N-Inferenzstrategie in Einklang bringt.
English
The application of Reinforcement Learning with Verifiable Rewards (RLVR) to mathematical and coding domains has demonstrated significant improvements in the reasoning and problem-solving abilities of Large Language Models. Despite its success in single generation problem solving, the reinforcement learning fine-tuning process may harm the model's exploration ability, as reflected in decreased diversity of generations and a resulting degradation of performance during Best-of-N sampling for large N values. In this work, we focus on optimizing the max@k metric, a continuous generalization of pass@k. We derive an unbiased on-policy gradient estimate for direct optimization of this metric. Furthermore, we extend our derivations to the off-policy updates, a common element in modern RLVR algorithms, that allows better sample efficiency. Empirically, we show that our objective effectively optimizes max@k metric in off-policy scenarios, aligning the model with the Best-of-N inference strategy.
PDF201December 31, 2025