Impara le Basi, Poi Affidati alle Vittorie: Auto-imitazione con Esplorazione Progressiva per l'Apprendimento per Rinforzo Agente
Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning
September 26, 2025
Autori: Yulei Qin, Xiaoyu Tan, Zhengbao He, Gang Li, Haojia Lin, Zongyi Li, Zihan Xu, Yuchen Shi, Siqi Cai, Renting Rui, Shaofei Cai, Yuzheng Cai, Xuan Zhang, Sheng Ye, Ke Li, Xing Sun
cs.AI
Abstract
L'apprendimento per rinforzo (RL) rappresenta il paradigma dominante per affinare le capacità di utilizzo strategico degli strumenti nei modelli linguistici di grandi dimensioni (LLM) su compiti di agenti a lungo orizzonte e con ricompense sparse, ma deve affrontare una sfida fondamentale nel bilanciamento tra esplorazione e sfruttamento. Gli studi esistenti stimolano l'esplorazione attraverso la lente dell'entropia della politica, ma tale massimizzazione meccanica dell'entropia è soggetta a instabilità durante l'addestramento RL a causa dello spostamento della distribuzione su più turni. In questo articolo, miriamo a un bilanciamento progressivo tra esplorazione e sfruttamento guidato dalle esperienze dell'agente stesso, senza cadere né nel collasso dell'entropia né in una divergenza incontrollata. Proponiamo SPEAR, una ricetta basata su curriculum per l'apprendimento per auto-imitazione (SIL) per addestrare LLM agentici. Estende il framework SIL di base, in cui un buffer di replay memorizza traiettorie promettenti auto-generate per aggiornamenti off-policy, guidando gradualmente l'evoluzione della politica entro un intervallo ben bilanciato di entropia attraverso diverse fasi. Nello specifico, il nostro approccio incorpora un curriculum per gestire il processo di esplorazione, utilizzando ricompense intrinseche per favorire l'esplorazione a livello di abilità e facilitando l'esplorazione a livello di azione attraverso il SIL. Inizialmente, la ricompensa ausiliaria per l'uso degli strumenti svolge un ruolo cruciale nell'accumulo di competenze, consentendo un'ampia esposizione alle distribuzioni non familiari del feedback ambientale con una tendenza all'aumento dell'entropia. Man mano che l'addestramento progredisce, l'auto-imitazione si rafforza per sfruttare modelli di successo esistenti dalle esperienze riprodotte, accelerando l'iterazione delle soluzioni senza una crescita illimitata dell'entropia. Per ulteriormente stabilizzare l'addestramento, ricalibriamo i vantaggi delle esperienze nel buffer di replay per affrontare la possibile deriva della politica. Introduciamo regolarizzazioni come il clipping dei token con alta covarianza tra probabilità e vantaggio nel controllo dell'entropia a livello di traiettoria per contenere l'eccessiva sicurezza.
English
Reinforcement learning (RL) is the dominant paradigm for sharpening strategic
tool use capabilities of LLMs on long-horizon, sparsely-rewarded agent tasks,
yet it faces a fundamental challenge of exploration-exploitation trade-off.
Existing studies stimulate exploration through the lens of policy entropy, but
such mechanical entropy maximization is prone to RL training instability due to
the multi-turn distribution shifting. In this paper, we target the progressive
exploration-exploitation balance under the guidance of the agent own
experiences without succumbing to either entropy collapsing or runaway
divergence. We propose SPEAR, a curriculum-based self-imitation learning (SIL)
recipe for training agentic LLMs. It extends the vanilla SIL framework, where a
replay buffer stores self-generated promising trajectories for off-policy
update, by gradually steering the policy evolution within a well-balanced range
of entropy across stages. Specifically, our approach incorporates a curriculum
to manage the exploration process, utilizing intrinsic rewards to foster
skill-level exploration and facilitating action-level exploration through SIL.
At first, the auxiliary tool call reward plays a critical role in the
accumulation of tool-use skills, enabling broad exposure to the unfamiliar
distributions of the environment feedback with an upward entropy trend. As
training progresses, self-imitation gets strengthened to exploit existing
successful patterns from replayed experiences for comparative action-level
exploration, accelerating solution iteration without unbounded entropy growth.
To further stabilize training, we recalibrate the advantages of experiences in
the replay buffer to address the potential policy drift. Reugularizations such
as the clipping of tokens with high covariance between probability and
advantage are introduced to the trajectory-level entropy control to curb
over-confidence.