AT^2PO: Agentische rundenbasierte Politikoptimierung mittels Baumsuche
AT^2PO: Agentic Turn-based Policy Optimization via Tree Search
January 8, 2026
papers.authors: Zefang Zong, Dingwei Chen, Yang Li, Qi Yi, Bo Zhou, Chengming Li, Bo Qian, Peng Chen, Jie Jiang
cs.AI
papers.abstract
LLM-Agenten haben sich als leistungsstarke Systeme etabliert, um mehrstufige Aufgaben durch das Verzahnen von internem Reasoning und externen Werkzeuginteraktionen zu bewältigen. Agentic Reinforcement Learning hat in letzter Zeit als ein entscheidendes Nachtrainierungsparadigma zur weiteren Verfeinerung dieser Fähigkeiten erhebliche Forschungsaufmerksamkeit auf sich gezogen. In diesem Artikel stellen wir AT^2PO (Agentic Turn-based Policy Optimization via Tree Search) vor, einen einheitlichen Rahmen für mehrstufiges agentisches Reinforcement Learning, der drei zentrale Herausforderungen adressiert: begrenzte Explorationsvielfalt, sparse Credit Assignment und fehlausgerichtete Policy-Optimierung. AT^2PO führt eine zugbasierte Baumstruktur ein, die gemeinsam eine entropiegeführte Baumerweiterung für strategische Exploration und eine zugweise Credit Assignment für feingranulare Belohnungspropagation von spärlichen Ergebnissen ermöglicht. Ergänzend dazu schlagen wir Agentic Turn-based Policy Optimization vor, ein zumbasiertes Lernziel, das Policy-Updates mit der natürlichen Entscheidungsgranularität agentischer Interaktionen in Einklang bringt. ATPO ist orthogonal zur Baumsuche und kann problemlos in jede mehrstufige RL-Pipeline integriert werden. Experimente über sieben Benchmarks hinweg demonstrieren durchgängige Verbesserungen gegenüber dem state-of-the-art Baseline von bis zu 1,84 Prozentpunkten im Durchschnitt, wobei Ablationsstudien die Wirksamkeit jeder Komponente validieren. Unser Code ist verfügbar unter https://github.com/zzfoutofspace/ATPO.
English
LLM agents have emerged as powerful systems for tackling multi-turn tasks by interleaving internal reasoning and external tool interactions. Agentic Reinforcement Learning has recently drawn significant research attention as a critical post-training paradigm to further refine these capabilities. In this paper, we present AT^2PO (Agentic Turn-based Policy Optimization via Tree Search), a unified framework for multi-turn agentic RL that addresses three core challenges: limited exploration diversity, sparse credit assignment, and misaligned policy optimization. AT^2PO introduces a turn-level tree structure that jointly enables Entropy-Guided Tree Expansion for strategic exploration and Turn-wise Credit Assignment for fine-grained reward propagation from sparse outcomes. Complementing this, we propose Agentic Turn-based Policy Optimization, a turn-level learning objective that aligns policy updates with the natural decision granularity of agentic interactions. ATPO is orthogonal to tree search and can be readily integrated into any multi-turn RL pipeline. Experiments across seven benchmarks demonstrate consistent improvements over the state-of-the-art baseline by up to 1.84 percentage points in average, with ablation studies validating the effectiveness of each component. Our code is available at https://github.com/zzfoutofspace/ATPO.