ChatPaper.aiChatPaper

Aprenda as Bases, Depois Confie nas Vitórias: Autoimitação com Exploração Progressiva para Aprendizado por Reforço Agente

Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning

September 26, 2025
Autores: Yulei Qin, Xiaoyu Tan, Zhengbao He, Gang Li, Haojia Lin, Zongyi Li, Zihan Xu, Yuchen Shi, Siqi Cai, Renting Rui, Shaofei Cai, Yuzheng Cai, Xuan Zhang, Sheng Ye, Ke Li, Xing Sun
cs.AI

Resumo

O aprendizado por reforço (RL) é o paradigma dominante para aprimorar as capacidades de uso estratégico de ferramentas de LLMs em tarefas de agentes de longo horizonte e recompensas esparsas, mas enfrenta um desafio fundamental de equilíbrio entre exploração e exploração. Estudos existentes estimulam a exploração através da lente da entropia da política, mas essa maximização mecânica da entropia é propensa à instabilidade no treinamento de RL devido à mudança de distribuição em múltiplos turnos. Neste artigo, visamos o equilíbrio progressivo entre exploração e exploração sob a orientação das próprias experiências do agente, sem sucumbir ao colapso da entropia ou à divergência descontrolada. Propomos o SPEAR, uma receita de aprendizado por autoimitação (SIL) baseada em currículo para treinar LLMs agentivos. Ele estende o framework SIL tradicional, onde um buffer de replay armazena trajetórias promissoras geradas pelo próprio agente para atualização off-policy, ao direcionar gradualmente a evolução da política dentro de uma faixa bem equilibrada de entropia ao longo dos estágios. Especificamente, nossa abordagem incorpora um currículo para gerenciar o processo de exploração, utilizando recompensas intrínsecas para promover a exploração em nível de habilidade e facilitar a exploração em nível de ação através do SIL. Inicialmente, a recompensa auxiliar por chamada de ferramenta desempenha um papel crítico na acumulação de habilidades de uso de ferramentas, permitindo uma ampla exposição às distribuições desconhecidas do feedback do ambiente com uma tendência crescente de entropia. À medida que o treinamento avança, a autoimitação é fortalecida para explorar padrões bem-sucedidos existentes a partir de experiências reproduzidas, acelerando a iteração de soluções sem crescimento descontrolado da entropia. Para estabilizar ainda mais o treinamento, recalibramos as vantagens das experiências no buffer de replay para abordar o possível desvio da política. Regularizações, como o corte de tokens com alta covariância entre probabilidade e vantagem, são introduzidas no controle de entropia em nível de trajetória para conter a superconfiança.
English
Reinforcement learning (RL) is the dominant paradigm for sharpening strategic tool use capabilities of LLMs on long-horizon, sparsely-rewarded agent tasks, yet it faces a fundamental challenge of exploration-exploitation trade-off. Existing studies stimulate exploration through the lens of policy entropy, but such mechanical entropy maximization is prone to RL training instability due to the multi-turn distribution shifting. In this paper, we target the progressive exploration-exploitation balance under the guidance of the agent own experiences without succumbing to either entropy collapsing or runaway divergence. We propose SPEAR, a curriculum-based self-imitation learning (SIL) recipe for training agentic LLMs. It extends the vanilla SIL framework, where a replay buffer stores self-generated promising trajectories for off-policy update, by gradually steering the policy evolution within a well-balanced range of entropy across stages. Specifically, our approach incorporates a curriculum to manage the exploration process, utilizing intrinsic rewards to foster skill-level exploration and facilitating action-level exploration through SIL. At first, the auxiliary tool call reward plays a critical role in the accumulation of tool-use skills, enabling broad exposure to the unfamiliar distributions of the environment feedback with an upward entropy trend. As training progresses, self-imitation gets strengthened to exploit existing successful patterns from replayed experiences for comparative action-level exploration, accelerating solution iteration without unbounded entropy growth. To further stabilize training, we recalibrate the advantages of experiences in the replay buffer to address the potential policy drift. Reugularizations such as the clipping of tokens with high covariance between probability and advantage are introduced to the trajectory-level entropy control to curb over-confidence.
PDF294September 29, 2025