AT^2PO: Ottimizzazione della Politica a Turni Agente tramite Ricerca ad Albero

Abstract

Gli agenti LLM sono emersi come sistemi potenti per affrontare compiti multi-turno intercalando ragionamento interno e interazioni con strumenti esterni. Il Reinforcement Learning agentico ha recentemente attirato significativa attenzione della ricerca come paradigma critico di post-training per affinare ulteriormente queste capacità. In questo articolo, presentiamo AT^2PO (Agentic Turn-based Policy Optimization via Tree Search), un framework unificato per il RL agentico multi-turno che affronta tre sfide fondamentali: diversità limitata dell'esplorazione, assegnazione sparse del credito e disallineamento dell'ottimizzazione delle politiche. AT^2PO introduce una struttura ad albero a livello di turno che abilita congiuntamente l'Espansione dell'Albero Guidata dall'Entropia per l'esplorazione strategica e l'Assegnazione del Credito per Turno per la propagazione granulare delle ricompense da esiti sparsi. A complemento di ciò, proponiamo l'Ottimizzazione delle Politiche Agentica a Livello di Turno, un obiettivo di apprendimento a livello di turno che allinea gli aggiornamenti delle politiche con la granularità decisionale naturale delle interazioni agentiche. ATPO è ortogonale alla ricerca ad albero e può essere facilmente integrato in qualsiasi pipeline RL multi-turno. Esperimenti su sette benchmark dimostrano miglioramenti consistenti rispetto allo stato dell'arte fino a 1,84 punti percentuali in media, con studi di ablazione che convalidano l'efficacia di ogni componente. Il nostro codice è disponibile su https://github.com/zzfoutofspace/ATPO.

English

LLM agents have emerged as powerful systems for tackling multi-turn tasks by interleaving internal reasoning and external tool interactions. Agentic Reinforcement Learning has recently drawn significant research attention as a critical post-training paradigm to further refine these capabilities. In this paper, we present AT^2PO (Agentic Turn-based Policy Optimization via Tree Search), a unified framework for multi-turn agentic RL that addresses three core challenges: limited exploration diversity, sparse credit assignment, and misaligned policy optimization. AT^2PO introduces a turn-level tree structure that jointly enables Entropy-Guided Tree Expansion for strategic exploration and Turn-wise Credit Assignment for fine-grained reward propagation from sparse outcomes. Complementing this, we propose Agentic Turn-based Policy Optimization, a turn-level learning objective that aligns policy updates with the natural decision granularity of agentic interactions. ATPO is orthogonal to tree search and can be readily integrated into any multi-turn RL pipeline. Experiments across seven benchmarks demonstrate consistent improvements over the state-of-the-art baseline by up to 1.84 percentage points in average, with ablation studies validating the effectiveness of each component. Our code is available at https://github.com/zzfoutofspace/ATPO.

AT^2PO: Ottimizzazione della Politica a Turni Agente tramite Ricerca ad Albero

AT^2PO: Agentic Turn-based Policy Optimization via Tree Search

Abstract

Support