AT^2PO : Optimisation de Politique Agentique par Tours via Recherche Arborescente
AT^2PO: Agentic Turn-based Policy Optimization via Tree Search
January 8, 2026
papers.authors: Zefang Zong, Dingwei Chen, Yang Li, Qi Yi, Bo Zhou, Chengming Li, Bo Qian, Peng Chen, Jie Jiang
cs.AI
papers.abstract
Les agents LLM sont apparus comme des systèmes puissants pour traiter des tâches multi-tours en entrelaçant raisonnement interne et interactions externes avec des outils. L'apprentissage par renforcement agentique a récemment attiré une attention significative de la recherche en tant que paradigme critique de post-entraînement pour affiner davantage ces capacités. Dans cet article, nous présentons AT^2PO (Optimisation de Politique Agentique par Tours via Recherche Arborescente), un cadre unifié pour l'apprentissage par renforcement agentique multi-tours qui aborde trois défis fondamentaux : la diversité d'exploration limitée, l'attribution de crédit éparse et l'optimisation de politique désalignée. AT^2PO introduit une structure arborescente au niveau du tour qui permet conjointement une Expansion Arborescente Guidée par l'Entropie pour une exploration stratégique et une Attribution de Crédit par Tour pour une propagation fine des récompenses à partir de résultats épars. En complément, nous proposons l'Optimisation de Politique Agentique par Tours, un objectif d'apprentissage au niveau du tour qui aligne les mises à jour de politique avec la granularité décisionnelle naturelle des interactions agentiques. ATPO est orthogonal à la recherche arborescente et peut être facilement intégré dans n'importe quel pipeline d'apprentissage par renforcement multi-tours. Les expériences sur sept benchmarks démontrent des améliorations constantes par rapport à l'état de l'art, allant jusqu'à 1,84 point de pourcentage en moyenne, avec des études d'ablation validant l'efficacité de chaque composant. Notre code est disponible à l'adresse https://github.com/zzfoutofspace/ATPO.
English
LLM agents have emerged as powerful systems for tackling multi-turn tasks by interleaving internal reasoning and external tool interactions. Agentic Reinforcement Learning has recently drawn significant research attention as a critical post-training paradigm to further refine these capabilities. In this paper, we present AT^2PO (Agentic Turn-based Policy Optimization via Tree Search), a unified framework for multi-turn agentic RL that addresses three core challenges: limited exploration diversity, sparse credit assignment, and misaligned policy optimization. AT^2PO introduces a turn-level tree structure that jointly enables Entropy-Guided Tree Expansion for strategic exploration and Turn-wise Credit Assignment for fine-grained reward propagation from sparse outcomes. Complementing this, we propose Agentic Turn-based Policy Optimization, a turn-level learning objective that aligns policy updates with the natural decision granularity of agentic interactions. ATPO is orthogonal to tree search and can be readily integrated into any multi-turn RL pipeline. Experiments across seven benchmarks demonstrate consistent improvements over the state-of-the-art baseline by up to 1.84 percentage points in average, with ablation studies validating the effectiveness of each component. Our code is available at https://github.com/zzfoutofspace/ATPO.