AT^2PO: Otimização de Políticas Baseada em Turnos por meio de Busca em Árvore com Agentes

Resumo

Os agentes de LLM emergiram como sistemas poderosos para lidar com tarefas multi-turno, intercalando raciocínio interno e interações com ferramentas externas. O Reforço de Aprendizagem Agêntico (Agentic Reinforcement Learning) tem recentemente atraído significativa atenção da pesquisa como um paradigma crítico de pós-treinamento para refinar ainda mais essas capacidades. Neste artigo, apresentamos o AT²PO (Otimização de Política Baseada em Turnos Agênticos via Busca em Árvore), uma estrutura unificada para RL agêntico multi-turno que aborda três desafios centrais: diversidade limitada de exploração, atribuição de crédito esparsa e otimização de política desalinhada. O AT²PO introduz uma estrutura de árvore baseada em turnos que permite conjuntamente a Expansão de Árvore Guiada por Entropia para exploração estratégica e a Atribuição de Crédito por Turno para propagação de recompensa refinada a partir de resultados esparsos. Complementando isso, propomos a Otimização de Política Baseada em Turnos Agênticos (Agentic Turn-based Policy Optimization), um objetivo de aprendizagem em nível de turno que alinha as atualizações da política com a granularidade natural de decisão das interações agênticas. A ATPO é ortogonal à busca em árvore e pode ser facilmente integrada em qualquer pipeline de RL multi-turno. Experimentos em sete benchmarks demonstram melhorias consistentes em relação à linha de base state-of-the-art de até 1,84 pontos percentuais em média, com estudos de ablação validando a eficácia de cada componente. Nosso código está disponível em https://github.com/zzfoutofspace/ATPO.

English

LLM agents have emerged as powerful systems for tackling multi-turn tasks by interleaving internal reasoning and external tool interactions. Agentic Reinforcement Learning has recently drawn significant research attention as a critical post-training paradigm to further refine these capabilities. In this paper, we present AT^2PO (Agentic Turn-based Policy Optimization via Tree Search), a unified framework for multi-turn agentic RL that addresses three core challenges: limited exploration diversity, sparse credit assignment, and misaligned policy optimization. AT^2PO introduces a turn-level tree structure that jointly enables Entropy-Guided Tree Expansion for strategic exploration and Turn-wise Credit Assignment for fine-grained reward propagation from sparse outcomes. Complementing this, we propose Agentic Turn-based Policy Optimization, a turn-level learning objective that aligns policy updates with the natural decision granularity of agentic interactions. ATPO is orthogonal to tree search and can be readily integrated into any multi-turn RL pipeline. Experiments across seven benchmarks demonstrate consistent improvements over the state-of-the-art baseline by up to 1.84 percentage points in average, with ablation studies validating the effectiveness of each component. Our code is available at https://github.com/zzfoutofspace/ATPO.

AT^2PO: Otimização de Políticas Baseada em Turnos por meio de Busca em Árvore com Agentes

AT^2PO: Agentic Turn-based Policy Optimization via Tree Search

Resumo

Support