AT^2PO: Optimización de Políticas por Turnos Agéntica mediante Búsqueda en Árbol
AT^2PO: Agentic Turn-based Policy Optimization via Tree Search
January 8, 2026
Autores: Zefang Zong, Dingwei Chen, Yang Li, Qi Yi, Bo Zhou, Chengming Li, Bo Qian, Peng Chen, Jie Jiang
cs.AI
Resumen
Los agentes de LLM han surgido como sistemas potentes para abordar tareas multi-turno mediante la intercalación de razonamiento interno e interacciones con herramientas externas. El Aprendizaje por Refuerzo Agéntico ha atraído recientemente una atención significativa en la investigación como un paradigma crítico de post-entrenamiento para refinar aún más estas capacidades. En este artículo, presentamos AT^2PO (Optimización de Políticas por Turnos Agéntica mediante Búsqueda en Árbol), un marco unificado para el aprendizaje por refuerzo agéntico multi-turno que aborda tres desafíos centrales: diversidad de exploración limitada, asignación de crédito dispersa y optimización de políticas desalineada. AT^2PO introduce una estructura de árbol a nivel de turno que permite conjuntamente una Expansión de Árbol Guiada por Entropía para la exploración estratégica y una Asignación de Crédito por Turnos para la propagación de recompensas de grano fino a partir de resultados dispersos. Complementando esto, proponemos la Optimización de Políticas por Turnos Agéntica, un objetivo de aprendizaje a nivel de turno que alinea las actualizaciones de políticas con la granularidad natural de decisión de las interacciones agénticas. ATPO es ortogonal a la búsqueda en árbol y puede integrarse fácilmente en cualquier pipeline de aprendizaje por refuerzo multi-turno. Los experimentos en siete benchmarks demuestran mejoras consistentes sobre el estado del arte, de hasta 1.84 puntos porcentuales en promedio, con estudios de ablación que validan la efectividad de cada componente. Nuestro código está disponible en https://github.com/zzfoutofspace/ATPO.
English
LLM agents have emerged as powerful systems for tackling multi-turn tasks by interleaving internal reasoning and external tool interactions. Agentic Reinforcement Learning has recently drawn significant research attention as a critical post-training paradigm to further refine these capabilities. In this paper, we present AT^2PO (Agentic Turn-based Policy Optimization via Tree Search), a unified framework for multi-turn agentic RL that addresses three core challenges: limited exploration diversity, sparse credit assignment, and misaligned policy optimization. AT^2PO introduces a turn-level tree structure that jointly enables Entropy-Guided Tree Expansion for strategic exploration and Turn-wise Credit Assignment for fine-grained reward propagation from sparse outcomes. Complementing this, we propose Agentic Turn-based Policy Optimization, a turn-level learning objective that aligns policy updates with the natural decision granularity of agentic interactions. ATPO is orthogonal to tree search and can be readily integrated into any multi-turn RL pipeline. Experiments across seven benchmarks demonstrate consistent improvements over the state-of-the-art baseline by up to 1.84 percentage points in average, with ablation studies validating the effectiveness of each component. Our code is available at https://github.com/zzfoutofspace/ATPO.