AT^2PO: 木探索によるエージェンシックターンベース方策最適化
AT^2PO: Agentic Turn-based Policy Optimization via Tree Search
January 8, 2026
著者: Zefang Zong, Dingwei Chen, Yang Li, Qi Yi, Bo Zhou, Chengming Li, Bo Qian, Peng Chen, Jie Jiang
cs.AI
要旨
LLMエージェントは、内部推論と外部ツール相互作用を交互に行うことで、マルチターンタスクに取り組む強力なシステムとして登場しました。エージェント強化学習は、これらの能力をさらに洗練させる重要なポストトレーニングパラダイムとして、最近大きな研究関心を集めています。本論文では、AT^2PO(Agentic Turn-based Policy Optimization via Tree Search)を提案します。これは、マルチターンエージェント強化学習における3つの核心的課題—探索多様性の限界、疎な信用割り当て、および政策最適化のミスアラインメント—に取り組む統一フレームワークです。AT^2POは、ターンレベルの木構造を導入し、戦略的探索のためのエントロピー誘導木拡張と、疎な結果からの細粒度な報酬伝播のためのターン単位信用割り当てを同時に実現します。これを補完するものとして、政策更新をエージェント相互作用の自然な意思決定粒度に合わせるターンレベル学習目標である、Agentic Turn-based Policy Optimizationを提案します。ATPOは木探索と直交しており、任意のマルチターン強化学習パイプラインに容易に統合できます。7つのベンチマークによる実験では、最先端ベースラインに対して最大1.84パーセントポイントの平均一貫した改善が実証され、各コンポーネントの有効性を検証する ablation 研究も行われました。コードは https://github.com/zzfoutofspace/ATPO で公開されています。
English
LLM agents have emerged as powerful systems for tackling multi-turn tasks by interleaving internal reasoning and external tool interactions. Agentic Reinforcement Learning has recently drawn significant research attention as a critical post-training paradigm to further refine these capabilities. In this paper, we present AT^2PO (Agentic Turn-based Policy Optimization via Tree Search), a unified framework for multi-turn agentic RL that addresses three core challenges: limited exploration diversity, sparse credit assignment, and misaligned policy optimization. AT^2PO introduces a turn-level tree structure that jointly enables Entropy-Guided Tree Expansion for strategic exploration and Turn-wise Credit Assignment for fine-grained reward propagation from sparse outcomes. Complementing this, we propose Agentic Turn-based Policy Optimization, a turn-level learning objective that aligns policy updates with the natural decision granularity of agentic interactions. ATPO is orthogonal to tree search and can be readily integrated into any multi-turn RL pipeline. Experiments across seven benchmarks demonstrate consistent improvements over the state-of-the-art baseline by up to 1.84 percentage points in average, with ablation studies validating the effectiveness of each component. Our code is available at https://github.com/zzfoutofspace/ATPO.