Entraînement Pass@k pour un équilibre adaptatif entre exploration et exploitation des modèles de raisonnement à grande échelle
Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models
August 14, 2025
papers.authors: Zhipeng Chen, Xiaobo Qin, Youbin Wu, Yue Ling, Qinghao Ye, Wayne Xin Zhao, Guang Shi
cs.AI
papers.abstract
L'apprentissage par renforcement avec récompenses vérifiables (RLVR), qui adopte généralement Pass@1 comme récompense, a rencontré des difficultés à équilibrer exploration et exploitation, conduisant les politiques à privilégier des actions conservatrices et à converger vers un optimum local. L'identification d'une métrique de récompense appropriée est donc cruciale. Concernant les travaux antérieurs, bien que Pass@k ait été utilisé pour l'évaluation, son lien avec la capacité d'exploration des modèles de langage (LLM) dans le cadre du RLVR reste largement négligé. Pour étudier cela, nous utilisons d'abord Pass@k comme récompense pour entraîner le modèle de politique (c'est-à-dire l'entraînement Pass@k), et observons l'amélioration de sa capacité d'exploration. Ensuite, nous dérivons une solution analytique pour l'avantage de l'entraînement Pass@k, conduisant à un processus efficace et performant. Sur cette base, notre analyse révèle que l'exploration et l'exploitation ne sont pas des objectifs intrinsèquement conflictuels, mais peuvent au contraire se renforcer mutuellement. De plus, l'entraînement Pass@k avec dérivation analytique implique essentiellement la conception directe de la fonction d'avantage. Inspirés par cela, nous explorons de manière préliminaire la conception de l'avantage pour le RLVR, montrant des résultats prometteurs et mettant en lumière une direction future potentielle.
English
Reinforcement learning with verifiable rewards (RLVR), which typically adopts
Pass@1 as the reward, has faced the issues in balancing exploration and
exploitation, causing policies to prefer conservative actions, converging to a
local optimum. Identifying an appropriate reward metric is therefore crucial.
Regarding the prior work, although Pass@k has been used in evaluation, its
connection to LLM exploration ability in RLVR remains largely overlooked. To
investigate this, we first use Pass@k as the reward to train the policy model
(i.e., Pass@k Training), and observe the improvement on its
exploration ability. Next, we derive an analytical solution for the advantage
of Pass@k Training, leading to an efficient and effective process. Building on
this, our analysis reveals that exploration and exploitation are not inherently
conflicting objectives, while they can mutually enhance each other. Moreover,
Pass@k Training with analytical derivation essentially involves directly
designing the advantage function. Inspired by this, we preliminarily explore
the advantage design for RLVR, showing promising results and highlighting a
potential future direction.