ChatPaper.aiChatPaper

Aprende los Fundamentos, Luego Confía en los Éxitos: Autoimitación con Exploración Progresiva para el Aprendizaje por Refuerzo Agente

Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning

September 26, 2025
Autores: Yulei Qin, Xiaoyu Tan, Zhengbao He, Gang Li, Haojia Lin, Zongyi Li, Zihan Xu, Yuchen Shi, Siqi Cai, Renting Rui, Shaofei Cai, Yuzheng Cai, Xuan Zhang, Sheng Ye, Ke Li, Xing Sun
cs.AI

Resumen

El aprendizaje por refuerzo (RL, por sus siglas en inglés) es el paradigma dominante para perfeccionar las capacidades estratégicas de uso de herramientas de los LLMs (Modelos de Lenguaje de Gran Escala) en tareas de agentes con horizontes largos y recompensas escasas, pero enfrenta un desafío fundamental: el equilibrio entre exploración y explotación. Los estudios existentes fomentan la exploración a través de la lente de la entropía de la política, pero dicha maximización mecánica de la entropía tiende a generar inestabilidad en el entrenamiento de RL debido al cambio de distribución en múltiples turnos. En este artículo, abordamos el equilibrio progresivo entre exploración y explotación bajo la guía de las propias experiencias del agente, sin caer en el colapso de la entropía ni en la divergencia descontrolada. Proponemos SPEAR, una receta de aprendizaje por autoimitación (SIL, por sus siglas en inglés) basada en un currículo para entrenar LLMs agentivos. Este método extiende el marco básico de SIL, donde un búfer de reproducción almacena trayectorias prometedoras generadas por el propio agente para actualizaciones fuera de la política, al guiar gradualmente la evolución de la política dentro de un rango bien equilibrado de entropía a lo largo de las etapas. Específicamente, nuestro enfoque incorpora un currículo para gestionar el proceso de exploración, utilizando recompensas intrínsecas para fomentar la exploración a nivel de habilidades y facilitando la exploración a nivel de acciones mediante SIL. Inicialmente, la recompensa auxiliar por el uso de herramientas desempeña un papel crítico en la acumulación de habilidades de uso de herramientas, permitiendo una exposición amplia a las distribuciones desconocidas de la retroalimentación del entorno con una tendencia ascendente de entropía. A medida que avanza el entrenamiento, la autoimitación se fortalece para explotar patrones exitosos existentes a partir de experiencias reproducidas, acelerando la iteración de soluciones sin un crecimiento descontrolado de la entropía. Para estabilizar aún más el entrenamiento, recalibramos las ventajas de las experiencias en el búfer de reproducción para abordar la posible deriva de la política. Se introducen regularizaciones, como el recorte de tokens con alta covarianza entre la probabilidad y la ventaja, en el control de la entropía a nivel de trayectoria para evitar la sobreconfianza.
English
Reinforcement learning (RL) is the dominant paradigm for sharpening strategic tool use capabilities of LLMs on long-horizon, sparsely-rewarded agent tasks, yet it faces a fundamental challenge of exploration-exploitation trade-off. Existing studies stimulate exploration through the lens of policy entropy, but such mechanical entropy maximization is prone to RL training instability due to the multi-turn distribution shifting. In this paper, we target the progressive exploration-exploitation balance under the guidance of the agent own experiences without succumbing to either entropy collapsing or runaway divergence. We propose SPEAR, a curriculum-based self-imitation learning (SIL) recipe for training agentic LLMs. It extends the vanilla SIL framework, where a replay buffer stores self-generated promising trajectories for off-policy update, by gradually steering the policy evolution within a well-balanced range of entropy across stages. Specifically, our approach incorporates a curriculum to manage the exploration process, utilizing intrinsic rewards to foster skill-level exploration and facilitating action-level exploration through SIL. At first, the auxiliary tool call reward plays a critical role in the accumulation of tool-use skills, enabling broad exposure to the unfamiliar distributions of the environment feedback with an upward entropy trend. As training progresses, self-imitation gets strengthened to exploit existing successful patterns from replayed experiences for comparative action-level exploration, accelerating solution iteration without unbounded entropy growth. To further stabilize training, we recalibrate the advantages of experiences in the replay buffer to address the potential policy drift. Reugularizations such as the clipping of tokens with high covariance between probability and advantage are introduced to the trajectory-level entropy control to curb over-confidence.
PDF62September 29, 2025