AT^2PO: 트리 탐색 기반 에이전트 턴 기반 정책 최적화
AT^2PO: Agentic Turn-based Policy Optimization via Tree Search
January 8, 2026
저자: Zefang Zong, Dingwei Chen, Yang Li, Qi Yi, Bo Zhou, Chengming Li, Bo Qian, Peng Chen, Jie Jiang
cs.AI
초록
LLM 에이전트는 내부 추론과 외부 도구 상호작용을 교차하며 다중 턴 작업을 해결하는 강력한 시스템으로 부상했습니다. 에이전트 강화학습은 이러한 능력을 추가로 정제하기 위한 중요한 사후 훈련 패러다임으로 최근 큰 연구 관심을 끌고 있습니다. 본 논문에서는 다중 턴 에이전트 강화학습의 세 가지 핵심 과제인 제한된 탐색 다양성, 희소 신용 할당, 그리고 정책 최적화의 불일치를 해결하는 통합 프레임워크인 AT^2PO(트리 탐색 기반 턴 단위 에이전트 정책 최적화)를 제안합니다. AT^2PO는 전략적 탐색을 위한 엔트로피 유도 트리 확장과 희소한 결과로부터 세밀한 보상 전파를 위한 턴 단위 신용 할당을 함께 가능하게 하는 턴 단위 트리 구조를 도입합니다. 이를 보완하여, 우리는 정책 업데이트를 에이전트 상호작용의 자연스러운 의사 결정 단위와 일치시키는 턴 단위 학습 목표인 에이전트 턴 단위 정책 최적화를 제안합니다. ATPO는 트리 탐색과 직교하며 어떤 다중 턴 강화학습 파이프라인에도 쉽게 통합될 수 있습니다. 7개 벤치마크에 대한 실험 결과, ATPO가 최신 기준선 대비 최대 1.84% 포인트의 평균 개선을 보였으며, ablation 연구를 통해 각 구성 요소의 효과성을 검증했습니다. 우리의 코드는 https://github.com/zzfoutofspace/ATPO에서 확인할 수 있습니다.
English
LLM agents have emerged as powerful systems for tackling multi-turn tasks by interleaving internal reasoning and external tool interactions. Agentic Reinforcement Learning has recently drawn significant research attention as a critical post-training paradigm to further refine these capabilities. In this paper, we present AT^2PO (Agentic Turn-based Policy Optimization via Tree Search), a unified framework for multi-turn agentic RL that addresses three core challenges: limited exploration diversity, sparse credit assignment, and misaligned policy optimization. AT^2PO introduces a turn-level tree structure that jointly enables Entropy-Guided Tree Expansion for strategic exploration and Turn-wise Credit Assignment for fine-grained reward propagation from sparse outcomes. Complementing this, we propose Agentic Turn-based Policy Optimization, a turn-level learning objective that aligns policy updates with the natural decision granularity of agentic interactions. ATPO is orthogonal to tree search and can be readily integrated into any multi-turn RL pipeline. Experiments across seven benchmarks demonstrate consistent improvements over the state-of-the-art baseline by up to 1.84 percentage points in average, with ablation studies validating the effectiveness of each component. Our code is available at https://github.com/zzfoutofspace/ATPO.