ChatPaper.aiChatPaper

AT^2PO: Otimização de Políticas Baseada em Turnos por meio de Busca em Árvore com Agentes

AT^2PO: Agentic Turn-based Policy Optimization via Tree Search

January 8, 2026
Autores: Zefang Zong, Dingwei Chen, Yang Li, Qi Yi, Bo Zhou, Chengming Li, Bo Qian, Peng Chen, Jie Jiang
cs.AI

Resumo

Os agentes de LLM emergiram como sistemas poderosos para lidar com tarefas multi-turno, intercalando raciocínio interno e interações com ferramentas externas. O Reforço de Aprendizagem Agêntico (Agentic Reinforcement Learning) tem recentemente atraído significativa atenção da pesquisa como um paradigma crítico de pós-treinamento para refinar ainda mais essas capacidades. Neste artigo, apresentamos o AT²PO (Otimização de Política Baseada em Turnos Agênticos via Busca em Árvore), uma estrutura unificada para RL agêntico multi-turno que aborda três desafios centrais: diversidade limitada de exploração, atribuição de crédito esparsa e otimização de política desalinhada. O AT²PO introduz uma estrutura de árvore baseada em turnos que permite conjuntamente a Expansão de Árvore Guiada por Entropia para exploração estratégica e a Atribuição de Crédito por Turno para propagação de recompensa refinada a partir de resultados esparsos. Complementando isso, propomos a Otimização de Política Baseada em Turnos Agênticos (Agentic Turn-based Policy Optimization), um objetivo de aprendizagem em nível de turno que alinha as atualizações da política com a granularidade natural de decisão das interações agênticas. A ATPO é ortogonal à busca em árvore e pode ser facilmente integrada em qualquer pipeline de RL multi-turno. Experimentos em sete benchmarks demonstram melhorias consistentes em relação à linha de base state-of-the-art de até 1,84 pontos percentuais em média, com estudos de ablação validando a eficácia de cada componente. Nosso código está disponível em https://github.com/zzfoutofspace/ATPO.
English
LLM agents have emerged as powerful systems for tackling multi-turn tasks by interleaving internal reasoning and external tool interactions. Agentic Reinforcement Learning has recently drawn significant research attention as a critical post-training paradigm to further refine these capabilities. In this paper, we present AT^2PO (Agentic Turn-based Policy Optimization via Tree Search), a unified framework for multi-turn agentic RL that addresses three core challenges: limited exploration diversity, sparse credit assignment, and misaligned policy optimization. AT^2PO introduces a turn-level tree structure that jointly enables Entropy-Guided Tree Expansion for strategic exploration and Turn-wise Credit Assignment for fine-grained reward propagation from sparse outcomes. Complementing this, we propose Agentic Turn-based Policy Optimization, a turn-level learning objective that aligns policy updates with the natural decision granularity of agentic interactions. ATPO is orthogonal to tree search and can be readily integrated into any multi-turn RL pipeline. Experiments across seven benchmarks demonstrate consistent improvements over the state-of-the-art baseline by up to 1.84 percentage points in average, with ablation studies validating the effectiveness of each component. Our code is available at https://github.com/zzfoutofspace/ATPO.
PDF283March 17, 2026