AT^2PO: Ottimizzazione della Politica a Turni Agente tramite Ricerca ad Albero
AT^2PO: Agentic Turn-based Policy Optimization via Tree Search
January 8, 2026
Autori: Zefang Zong, Dingwei Chen, Yang Li, Qi Yi, Bo Zhou, Chengming Li, Bo Qian, Peng Chen, Jie Jiang
cs.AI
Abstract
Gli agenti LLM sono emersi come sistemi potenti per affrontare compiti multi-turno intercalando ragionamento interno e interazioni con strumenti esterni. Il Reinforcement Learning agentico ha recentemente attirato significativa attenzione della ricerca come paradigma critico di post-training per affinare ulteriormente queste capacità. In questo articolo, presentiamo AT^2PO (Agentic Turn-based Policy Optimization via Tree Search), un framework unificato per il RL agentico multi-turno che affronta tre sfide fondamentali: diversità limitata dell'esplorazione, assegnazione sparse del credito e disallineamento dell'ottimizzazione delle politiche. AT^2PO introduce una struttura ad albero a livello di turno che abilita congiuntamente l'Espansione dell'Albero Guidata dall'Entropia per l'esplorazione strategica e l'Assegnazione del Credito per Turno per la propagazione granulare delle ricompense da esiti sparsi. A complemento di ciò, proponiamo l'Ottimizzazione delle Politiche Agentica a Livello di Turno, un obiettivo di apprendimento a livello di turno che allinea gli aggiornamenti delle politiche con la granularità decisionale naturale delle interazioni agentiche. ATPO è ortogonale alla ricerca ad albero e può essere facilmente integrato in qualsiasi pipeline RL multi-turno. Esperimenti su sette benchmark dimostrano miglioramenti consistenti rispetto allo stato dell'arte fino a 1,84 punti percentuali in media, con studi di ablazione che convalidano l'efficacia di ogni componente. Il nostro codice è disponibile su https://github.com/zzfoutofspace/ATPO.
English
LLM agents have emerged as powerful systems for tackling multi-turn tasks by interleaving internal reasoning and external tool interactions. Agentic Reinforcement Learning has recently drawn significant research attention as a critical post-training paradigm to further refine these capabilities. In this paper, we present AT^2PO (Agentic Turn-based Policy Optimization via Tree Search), a unified framework for multi-turn agentic RL that addresses three core challenges: limited exploration diversity, sparse credit assignment, and misaligned policy optimization. AT^2PO introduces a turn-level tree structure that jointly enables Entropy-Guided Tree Expansion for strategic exploration and Turn-wise Credit Assignment for fine-grained reward propagation from sparse outcomes. Complementing this, we propose Agentic Turn-based Policy Optimization, a turn-level learning objective that aligns policy updates with the natural decision granularity of agentic interactions. ATPO is orthogonal to tree search and can be readily integrated into any multi-turn RL pipeline. Experiments across seven benchmarks demonstrate consistent improvements over the state-of-the-art baseline by up to 1.84 percentage points in average, with ablation studies validating the effectiveness of each component. Our code is available at https://github.com/zzfoutofspace/ATPO.