Le Meilleur des N Mondes : Aligner l'Apprentissage par Renforcement avec l'Échantillonnage Best-of-N via l'Optimisation max@k

papers.abstract

L'application du Renforcement de l'Apprentissage avec Récompenses Vérifiables (RLVR) aux domaines mathématiques et de programmation a démontré des améliorations significatives des capacités de raisonnement et de résolution de problèmes des Grands Modèles de Langage. Malgré son succès dans la résolution de problèmes à génération unique, le processus de mise au point par apprentissage par renforcement peut nuire à la capacité d'exploration du modèle, comme en témoigne la diminution de la diversité des générations et une dégradation conséquente des performances lors de l'échantillonnage Best-of-N pour de grandes valeurs de N. Dans ce travail, nous nous concentrons sur l'optimisation de la métrique max@k, une généralisation continue de pass@k. Nous dérivons une estimation de gradient non biaisée sur la politique pour l'optimisation directe de cette métrique. De plus, nous étendons nos dérivations aux mises à jour hors politique, un élément commun dans les algorithmes RLVR modernes, qui permet une meilleure efficacité d'échantillonnage. Empiriquement, nous montrons que notre objectif optimise efficacement la métrique max@k dans des scénarios hors politique, alignant le modèle avec la stratégie d'inférence Best-of-N.

English

The application of Reinforcement Learning with Verifiable Rewards (RLVR) to mathematical and coding domains has demonstrated significant improvements in the reasoning and problem-solving abilities of Large Language Models. Despite its success in single generation problem solving, the reinforcement learning fine-tuning process may harm the model's exploration ability, as reflected in decreased diversity of generations and a resulting degradation of performance during Best-of-N sampling for large N values. In this work, we focus on optimizing the max@k metric, a continuous generalization of pass@k. We derive an unbiased on-policy gradient estimate for direct optimization of this metric. Furthermore, we extend our derivations to the off-policy updates, a common element in modern RLVR algorithms, that allows better sample efficiency. Empirically, we show that our objective effectively optimizes max@k metric in off-policy scenarios, aligning the model with the Best-of-N inference strategy.

Le Meilleur des N Mondes : Aligner l'Apprentissage par Renforcement avec l'Échantillonnage Best-of-N via l'Optimisation max@k

The Best of N Worlds: Aligning Reinforcement Learning with Best-of-N Sampling via max@k Optimisation

papers.abstract

Support