Ottimizzazione della Politica con Bilanciamento Entropico Agente

Abstract

Recentemente, il Reinforcement Learning Agente (Agentic RL) ha compiuto progressi significativi nell'incentivare le capacità di utilizzo di strumenti multi-turn e a lungo orizzonte degli agenti web. Mentre gli algoritmi principali di Agentic RL esplorano autonomamente i passaggi di chiamata degli strumenti ad alta incertezza sotto la guida dell'entropia, un'eccessiva dipendenza dai segnali di entropia può imporre ulteriori vincoli, portando al collasso dell'addestramento. In questo articolo, approfondiamo le sfide causate dall'entropia e proponiamo l'Agentic Entropy-Balanced Policy Optimization (AEPO), un algoritmo di Agentic RL progettato per bilanciare l'entropia sia nella fase di rollout che in quella di aggiornamento della policy. AEPO comprende due componenti principali: (1) un meccanismo di rollout bilanciato dinamicamente dall'entropia che assegna in modo adattivo il budget di campionamento globale e di ramificazione attraverso il pre-monitoraggio dell'entropia, imponendo una penalità di ramificazione sui passaggi consecutivi di chiamata degli strumenti ad alta entropia per prevenire problemi di eccessiva ramificazione; e (2) l'Entropy-Balanced Policy Optimization che inserisce un'operazione di stop-gradient nel termine di clipping ad alta entropia per preservare e ridimensionare correttamente i gradienti sui token ad alta entropia, incorporando una stima del vantaggio consapevole dell'entropia per dare priorità all'apprendimento sui token ad alta incertezza. I risultati su 14 dataset complessi mostrano che AEPO supera costantemente 7 algoritmi principali di RL. Con soli 1K campioni di RL, Qwen3-14B con AEPO ottiene risultati impressionanti: 47,6% su GAIA, 11,2% su Humanity's Last Exam e 43,0% su WebWalker per Pass@1; 65,0% su GAIA, 26,0% su Humanity's Last Exam e 70,0% su WebWalker per Pass@5. Un'ulteriore analisi rivela che AEPO migliora la diversità del campionamento di rollout mantenendo stabile l'entropia della policy, facilitando un addestramento scalabile degli agenti web.

English

Recently, Agentic Reinforcement Learning (Agentic RL) has made significant progress in incentivizing the multi-turn, long-horizon tool-use capabilities of web agents. While mainstream agentic RL algorithms autonomously explore high-uncertainty tool-call steps under the guidance of entropy, excessive reliance on entropy signals can impose further constraints, leading to the training collapse. In this paper, we delve into the challenges caused by entropy and propose the Agentic Entropy-Balanced Policy Optimization (AEPO), an agentic RL algorithm designed to balance entropy in both the rollout and policy update phases. AEPO comprises two core components: (1) a dynamic entropy-balanced rollout mechanism that adaptively allocate global and branch sampling budget through entropy pre-monitoring, while imposing a branch penalty on consecutive high-entropy tool-call steps to prevent over-branching issues; and (2) Entropy-Balanced Policy Optimization that inserts a stop-gradient operation into the high-entropy clipping term to preserve and properly rescale gradients on high-entropy tokens, while incorporating entropy-aware advantage estimation to prioritize learning on high-uncertainty tokens. Results across 14 challenging datasets show that AEPO consistently outperforms 7 mainstream RL algorithms. With just 1K RL samples, Qwen3-14B with AEPO achieves impressive results: 47.6% on GAIA, 11.2% on Humanity's Last Exam, and 43.0% on WebWalker for Pass@1; 65.0% on GAIA, 26.0% on Humanity's Last Exam, and 70.0% on WebWalker for Pass@5. Further analysis reveals that AEPO improves rollout sampling diversity while maintaining stable policy entropy, facilitating scalable web agent training.