Treinamento Pass@k para o Equilíbrio Adaptativo entre Exploração e Exploração de Modelos de Raciocínio de Grande Escala
Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models
August 14, 2025
Autores: Zhipeng Chen, Xiaobo Qin, Youbin Wu, Yue Ling, Qinghao Ye, Wayne Xin Zhao, Guang Shi
cs.AI
Resumo
O aprendizado por reforço com recompensas verificáveis (RLVR), que normalmente adota o Pass@1 como recompensa, enfrentou problemas ao equilibrar exploração e explotação, fazendo com que as políticas preferissem ações conservadoras e convergissem para um ótimo local. Portanto, identificar uma métrica de recompensa apropriada é crucial. Em relação ao trabalho anterior, embora o Pass@k tenha sido usado na avaliação, sua conexão com a capacidade de exploração de LLMs no RLVR permaneceu amplamente negligenciada. Para investigar isso, primeiro usamos o Pass@k como recompensa para treinar o modelo de política (ou seja, Treinamento Pass@k) e observamos a melhoria em sua capacidade de exploração. Em seguida, derivamos uma solução analítica para a vantagem do Treinamento Pass@k, resultando em um processo eficiente e eficaz. Com base nisso, nossa análise revela que exploração e explotação não são objetivos inerentemente conflitantes, podendo, na verdade, se reforçar mutuamente. Além disso, o Treinamento Pass@k com derivação analítica envolve essencialmente o design direto da função de vantagem. Inspirados por isso, exploramos preliminarmente o design de vantagem para RLVR, mostrando resultados promissores e destacando uma potencial direção futura.
English
Reinforcement learning with verifiable rewards (RLVR), which typically adopts
Pass@1 as the reward, has faced the issues in balancing exploration and
exploitation, causing policies to prefer conservative actions, converging to a
local optimum. Identifying an appropriate reward metric is therefore crucial.
Regarding the prior work, although Pass@k has been used in evaluation, its
connection to LLM exploration ability in RLVR remains largely overlooked. To
investigate this, we first use Pass@k as the reward to train the policy model
(i.e., Pass@k Training), and observe the improvement on its
exploration ability. Next, we derive an analytical solution for the advantage
of Pass@k Training, leading to an efficient and effective process. Building on
this, our analysis reveals that exploration and exploitation are not inherently
conflicting objectives, while they can mutually enhance each other. Moreover,
Pass@k Training with analytical derivation essentially involves directly
designing the advantage function. Inspired by this, we preliminarily explore
the advantage design for RLVR, showing promising results and highlighting a
potential future direction.