ChatPaper.aiChatPaper

Agentische Entropie-balancierte Politikoptimierung

Agentic Entropy-Balanced Policy Optimization

October 16, 2025
papers.authors: Guanting Dong, Licheng Bao, Zhongyuan Wang, Kangzhi Zhao, Xiaoxi Li, Jiajie Jin, Jinghan Yang, Hangyu Mao, Fuzheng Zhang, Kun Gai, Guorui Zhou, Yutao Zhu, Ji-Rong Wen, Zhicheng Dou
cs.AI

papers.abstract

Kürzlich hat das Agentic Reinforcement Learning (Agentic RL) bedeutende Fortschritte bei der Förderung der mehrstufigen, langfristigen Werkzeugnutzungsfähigkeiten von Web-Agenten erzielt. Während gängige Agentic RL-Algorithmen eigenständig Schritte mit hoher Unsicherheit bei der Werkzeugnutzung unter der Anleitung von Entropie erkunden, kann eine übermäßige Abhängigkeit von Entropiesignalen zusätzliche Einschränkungen auferlegen, was zum Zusammenbruch des Trainings führen kann. In diesem Artikel untersuchen wir die Herausforderungen, die durch Entropie verursacht werden, und schlagen die Agentic Entropy-Balanced Policy Optimization (AEPO) vor, einen Agentic RL-Algorithmus, der darauf abzielt, die Entropie sowohl in der Rollout- als auch in der Policy-Update-Phase auszugleichen. AEPO besteht aus zwei Kernkomponenten: (1) einem dynamischen Entropie-ausgleichenden Rollout-Mechanismus, der globales und verzweigtes Sampling-Budget durch Entropie-Vorüberwachung adaptiv zuweist, während er eine Verzweigungsstrafe auf aufeinanderfolgende Schritte mit hoher Entropie bei der Werkzeugnutzung anwendet, um Überverzweigungsprobleme zu verhindern; und (2) einer Entropie-ausgleichenden Policy-Optimierung, die eine Stop-Gradient-Operation in den Clipping-Term für hohe Entropie einfügt, um Gradienten auf Tokens mit hoher Entropie zu erhalten und angemessen zu skalieren, während sie eine entropiebewusste Vorteilsschätzung einbezieht, um das Lernen auf Tokens mit hoher Unsicherheit zu priorisieren. Ergebnisse über 14 anspruchsvolle Datensätze hinweg zeigen, dass AEPO durchweg 7 gängige RL-Algorithmen übertrifft. Mit nur 1K RL-Proben erzielt Qwen3-14B mit AEPO beeindruckende Ergebnisse: 47,6 % auf GAIA, 11,2 % auf Humanity's Last Exam und 43,0 % auf WebWalker für Pass@1; 65,0 % auf GAIA, 26,0 % auf Humanity's Last Exam und 70,0 % auf WebWalker für Pass@5. Eine weitere Analyse zeigt, dass AEPO die Vielfalt des Rollout-Samplings verbessert, während es die Entropie der Policy stabil hält, was die skalierbare Ausbildung von Web-Agenten erleichtert.
English
Recently, Agentic Reinforcement Learning (Agentic RL) has made significant progress in incentivizing the multi-turn, long-horizon tool-use capabilities of web agents. While mainstream agentic RL algorithms autonomously explore high-uncertainty tool-call steps under the guidance of entropy, excessive reliance on entropy signals can impose further constraints, leading to the training collapse. In this paper, we delve into the challenges caused by entropy and propose the Agentic Entropy-Balanced Policy Optimization (AEPO), an agentic RL algorithm designed to balance entropy in both the rollout and policy update phases. AEPO comprises two core components: (1) a dynamic entropy-balanced rollout mechanism that adaptively allocate global and branch sampling budget through entropy pre-monitoring, while imposing a branch penalty on consecutive high-entropy tool-call steps to prevent over-branching issues; and (2) Entropy-Balanced Policy Optimization that inserts a stop-gradient operation into the high-entropy clipping term to preserve and properly rescale gradients on high-entropy tokens, while incorporating entropy-aware advantage estimation to prioritize learning on high-uncertainty tokens. Results across 14 challenging datasets show that AEPO consistently outperforms 7 mainstream RL algorithms. With just 1K RL samples, Qwen3-14B with AEPO achieves impressive results: 47.6% on GAIA, 11.2% on Humanity's Last Exam, and 43.0% on WebWalker for Pass@1; 65.0% on GAIA, 26.0% on Humanity's Last Exam, and 70.0% on WebWalker for Pass@5. Further analysis reveals that AEPO improves rollout sampling diversity while maintaining stable policy entropy, facilitating scalable web agent training.
PDF954October 17, 2025