에이전트 엔트로피 균형 정책 최적화
Agentic Entropy-Balanced Policy Optimization
October 16, 2025
저자: Guanting Dong, Licheng Bao, Zhongyuan Wang, Kangzhi Zhao, Xiaoxi Li, Jiajie Jin, Jinghan Yang, Hangyu Mao, Fuzheng Zhang, Kun Gai, Guorui Zhou, Yutao Zhu, Ji-Rong Wen, Zhicheng Dou
cs.AI
초록
최근, 에이전트 강화 학습(Agentic RL)은 웹 에이전트의 다중 턴, 장기적 도구 사용 능력을 촉진하는 데 있어 상당한 진전을 이루었습니다. 주류 에이전트 RL 알고리즘은 엔트로피의 지도 하에 높은 불확실성을 가진 도구 호출 단계를 자율적으로 탐색하지만, 엔트로피 신호에 대한 과도한 의존은 추가적인 제약을 초래하여 학습 붕괴를 유발할 수 있습니다. 본 논문에서는 엔트로피로 인한 문제점을 심층적으로 분석하고, 롤아웃 및 정책 업데이트 단계에서 엔트로피를 균형 있게 조절하기 위해 설계된 에이전트 RL 알고리즘인 Agentic Entropy-Balanced Policy Optimization(AEPO)을 제안합니다. AEPO는 두 가지 핵심 구성 요소로 이루어져 있습니다: (1) 엔트로피 사전 모니터링을 통해 전역 및 분기 샘플링 예산을 적응적으로 할당하고, 연속적인 높은 엔트로피 도구 호출 단계에 분기 패널티를 부과하여 과도한 분기 문제를 방지하는 동적 엔트로피 균형 롤아웃 메커니즘; (2) 높은 엔트로피 클리핑 항목에 스탑 그래디언트 연산을 삽입하여 높은 엔트로피 토큰에 대한 그래디언트를 보존하고 적절히 재조정하며, 높은 불확실성 토큰에 대한 학습을 우선시하기 위해 엔트로피 인식 이점 추정을 통합하는 엔트로피 균형 정책 최적화. 14개의 도전적인 데이터셋에 대한 실험 결과, AEPO는 7개의 주류 RL 알고리즘을 꾸준히 능가하는 성능을 보였습니다. 단 1K RL 샘플로, AEPO를 적용한 Qwen3-14B는 GAIA에서 47.6%, Humanity's Last Exam에서 11.2%, WebWalker에서 43.0%의 Pass@1 성적을 기록했으며, GAIA에서 65.0%, Humanity's Last Exam에서 26.0%, WebWalker에서 70.0%의 Pass@5 성적을 달성했습니다. 추가 분석 결과, AEPO는 안정적인 정책 엔트로피를 유지하면서 롤아웃 샘플링 다양성을 개선하여 확장 가능한 웹 에이전트 학습을 촉진하는 것으로 나타났습니다.
English
Recently, Agentic Reinforcement Learning (Agentic RL) has made significant
progress in incentivizing the multi-turn, long-horizon tool-use capabilities of
web agents. While mainstream agentic RL algorithms autonomously explore
high-uncertainty tool-call steps under the guidance of entropy, excessive
reliance on entropy signals can impose further constraints, leading to the
training collapse. In this paper, we delve into the challenges caused by
entropy and propose the Agentic Entropy-Balanced Policy Optimization (AEPO), an
agentic RL algorithm designed to balance entropy in both the rollout and policy
update phases. AEPO comprises two core components: (1) a dynamic
entropy-balanced rollout mechanism that adaptively allocate global and branch
sampling budget through entropy pre-monitoring, while imposing a branch penalty
on consecutive high-entropy tool-call steps to prevent over-branching issues;
and (2) Entropy-Balanced Policy Optimization that inserts a stop-gradient
operation into the high-entropy clipping term to preserve and properly rescale
gradients on high-entropy tokens, while incorporating entropy-aware advantage
estimation to prioritize learning on high-uncertainty tokens. Results across 14
challenging datasets show that AEPO consistently outperforms 7 mainstream RL
algorithms. With just 1K RL samples, Qwen3-14B with AEPO achieves impressive
results: 47.6% on GAIA, 11.2% on Humanity's Last Exam, and 43.0% on WebWalker
for Pass@1; 65.0% on GAIA, 26.0% on Humanity's Last Exam, and 70.0% on
WebWalker for Pass@5. Further analysis reveals that AEPO improves rollout
sampling diversity while maintaining stable policy entropy, facilitating
scalable web agent training.