Le Meilleur des N Mondes : Aligner l'Apprentissage par Renforcement avec l'Échantillonnage Best-of-N via l'Optimisation max@k
The Best of N Worlds: Aligning Reinforcement Learning with Best-of-N Sampling via max@k Optimisation
October 27, 2025
papers.authors: Farid Bagirov, Mikhail Arkhipov, Ksenia Sycheva, Evgeniy Glukhov, Egor Bogomolov
cs.AI
papers.abstract
L'application du Renforcement de l'Apprentissage avec Récompenses Vérifiables (RLVR) aux domaines mathématiques et de programmation a démontré des améliorations significatives des capacités de raisonnement et de résolution de problèmes des Grands Modèles de Langage. Malgré son succès dans la résolution de problèmes à génération unique, le processus de mise au point par apprentissage par renforcement peut nuire à la capacité d'exploration du modèle, comme en témoigne la diminution de la diversité des générations et une dégradation conséquente des performances lors de l'échantillonnage Best-of-N pour de grandes valeurs de N. Dans ce travail, nous nous concentrons sur l'optimisation de la métrique max@k, une généralisation continue de pass@k. Nous dérivons une estimation de gradient non biaisée sur la politique pour l'optimisation directe de cette métrique. De plus, nous étendons nos dérivations aux mises à jour hors politique, un élément commun dans les algorithmes RLVR modernes, qui permet une meilleure efficacité d'échantillonnage. Empiriquement, nous montrons que notre objectif optimise efficacement la métrique max@k dans des scénarios hors politique, alignant le modèle avec la stratégie d'inférence Best-of-N.
English
The application of Reinforcement Learning with Verifiable Rewards (RLVR) to
mathematical and coding domains has demonstrated significant improvements in
the reasoning and problem-solving abilities of Large Language Models. Despite
its success in single generation problem solving, the reinforcement learning
fine-tuning process may harm the model's exploration ability, as reflected in
decreased diversity of generations and a resulting degradation of performance
during Best-of-N sampling for large N values. In this work, we focus on
optimizing the max@k metric, a continuous generalization of pass@k. We derive
an unbiased on-policy gradient estimate for direct optimization of this metric.
Furthermore, we extend our derivations to the off-policy updates, a common
element in modern RLVR algorithms, that allows better sample efficiency.
Empirically, we show that our objective effectively optimizes max@k metric in
off-policy scenarios, aligning the model with the Best-of-N inference strategy.