Ottimizzazione della Politica con Bilanciamento Entropico Agente
Agentic Entropy-Balanced Policy Optimization
October 16, 2025
Autori: Guanting Dong, Licheng Bao, Zhongyuan Wang, Kangzhi Zhao, Xiaoxi Li, Jiajie Jin, Jinghan Yang, Hangyu Mao, Fuzheng Zhang, Kun Gai, Guorui Zhou, Yutao Zhu, Ji-Rong Wen, Zhicheng Dou
cs.AI
Abstract
Recentemente, il Reinforcement Learning Agente (Agentic RL) ha compiuto progressi significativi nell'incentivare le capacità di utilizzo di strumenti multi-turn e a lungo orizzonte degli agenti web. Mentre gli algoritmi principali di Agentic RL esplorano autonomamente i passaggi di chiamata degli strumenti ad alta incertezza sotto la guida dell'entropia, un'eccessiva dipendenza dai segnali di entropia può imporre ulteriori vincoli, portando al collasso dell'addestramento. In questo articolo, approfondiamo le sfide causate dall'entropia e proponiamo l'Agentic Entropy-Balanced Policy Optimization (AEPO), un algoritmo di Agentic RL progettato per bilanciare l'entropia sia nella fase di rollout che in quella di aggiornamento della policy. AEPO comprende due componenti principali: (1) un meccanismo di rollout bilanciato dinamicamente dall'entropia che assegna in modo adattivo il budget di campionamento globale e di ramificazione attraverso il pre-monitoraggio dell'entropia, imponendo una penalità di ramificazione sui passaggi consecutivi di chiamata degli strumenti ad alta entropia per prevenire problemi di eccessiva ramificazione; e (2) l'Entropy-Balanced Policy Optimization che inserisce un'operazione di stop-gradient nel termine di clipping ad alta entropia per preservare e ridimensionare correttamente i gradienti sui token ad alta entropia, incorporando una stima del vantaggio consapevole dell'entropia per dare priorità all'apprendimento sui token ad alta incertezza. I risultati su 14 dataset complessi mostrano che AEPO supera costantemente 7 algoritmi principali di RL. Con soli 1K campioni di RL, Qwen3-14B con AEPO ottiene risultati impressionanti: 47,6% su GAIA, 11,2% su Humanity's Last Exam e 43,0% su WebWalker per Pass@1; 65,0% su GAIA, 26,0% su Humanity's Last Exam e 70,0% su WebWalker per Pass@5. Un'ulteriore analisi rivela che AEPO migliora la diversità del campionamento di rollout mantenendo stabile l'entropia della policy, facilitando un addestramento scalabile degli agenti web.
English
Recently, Agentic Reinforcement Learning (Agentic RL) has made significant
progress in incentivizing the multi-turn, long-horizon tool-use capabilities of
web agents. While mainstream agentic RL algorithms autonomously explore
high-uncertainty tool-call steps under the guidance of entropy, excessive
reliance on entropy signals can impose further constraints, leading to the
training collapse. In this paper, we delve into the challenges caused by
entropy and propose the Agentic Entropy-Balanced Policy Optimization (AEPO), an
agentic RL algorithm designed to balance entropy in both the rollout and policy
update phases. AEPO comprises two core components: (1) a dynamic
entropy-balanced rollout mechanism that adaptively allocate global and branch
sampling budget through entropy pre-monitoring, while imposing a branch penalty
on consecutive high-entropy tool-call steps to prevent over-branching issues;
and (2) Entropy-Balanced Policy Optimization that inserts a stop-gradient
operation into the high-entropy clipping term to preserve and properly rescale
gradients on high-entropy tokens, while incorporating entropy-aware advantage
estimation to prioritize learning on high-uncertainty tokens. Results across 14
challenging datasets show that AEPO consistently outperforms 7 mainstream RL
algorithms. With just 1K RL samples, Qwen3-14B with AEPO achieves impressive
results: 47.6% on GAIA, 11.2% on Humanity's Last Exam, and 43.0% on WebWalker
for Pass@1; 65.0% on GAIA, 26.0% on Humanity's Last Exam, and 70.0% on
WebWalker for Pass@5. Further analysis reveals that AEPO improves rollout
sampling diversity while maintaining stable policy entropy, facilitating
scalable web agent training.