ChatPaper.aiChatPaper

Entrenamiento de Pass@k para Equilibrar Adaptativamente la Exploración y la Explotación de Modelos de Razonamiento a Gran Escala

Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models

August 14, 2025
Autores: Zhipeng Chen, Xiaobo Qin, Youbin Wu, Yue Ling, Qinghao Ye, Wayne Xin Zhao, Guang Shi
cs.AI

Resumen

El aprendizaje por refuerzo con recompensas verificables (RLVR), que típicamente adopta Pass@1 como recompensa, ha enfrentado problemas para equilibrar la exploración y la explotación, lo que lleva a las políticas a preferir acciones conservadoras y converger a un óptimo local. Por lo tanto, identificar una métrica de recompensa adecuada es crucial. Respecto a trabajos previos, aunque Pass@k se ha utilizado en la evaluación, su conexión con la capacidad de exploración de los modelos de lenguaje (LLM) en RLVR ha sido ampliamente ignorada. Para investigar esto, primero utilizamos Pass@k como recompensa para entrenar el modelo de política (es decir, Entrenamiento con Pass@k) y observamos la mejora en su capacidad de exploración. A continuación, derivamos una solución analítica para la ventaja del Entrenamiento con Pass@k, lo que conduce a un proceso eficiente y efectivo. Basándonos en esto, nuestro análisis revela que la exploración y la explotación no son objetivos inherentemente conflictivos, sino que pueden potenciarse mutuamente. Además, el Entrenamiento con Pass@k con derivación analítica implica esencialmente diseñar directamente la función de ventaja. Inspirados por esto, exploramos preliminarmente el diseño de ventajas para RLVR, mostrando resultados prometedores y destacando una dirección futura potencial.
English
Reinforcement learning with verifiable rewards (RLVR), which typically adopts Pass@1 as the reward, has faced the issues in balancing exploration and exploitation, causing policies to prefer conservative actions, converging to a local optimum. Identifying an appropriate reward metric is therefore crucial. Regarding the prior work, although Pass@k has been used in evaluation, its connection to LLM exploration ability in RLVR remains largely overlooked. To investigate this, we first use Pass@k as the reward to train the policy model (i.e., Pass@k Training), and observe the improvement on its exploration ability. Next, we derive an analytical solution for the advantage of Pass@k Training, leading to an efficient and effective process. Building on this, our analysis reveals that exploration and exploitation are not inherently conflicting objectives, while they can mutually enhance each other. Moreover, Pass@k Training with analytical derivation essentially involves directly designing the advantage function. Inspired by this, we preliminarily explore the advantage design for RLVR, showing promising results and highlighting a potential future direction.
PDF41August 15, 2025