AT^2PO: Агентная пошаговая оптимизация политик с помощью поиска по дереву
AT^2PO: Agentic Turn-based Policy Optimization via Tree Search
January 8, 2026
Авторы: Zefang Zong, Dingwei Chen, Yang Li, Qi Yi, Bo Zhou, Chengming Li, Bo Qian, Peng Chen, Jie Jiang
cs.AI
Аннотация
LLM-агенты стали мощными системами для решения многоходовых задач за счет чередования внутренних рассуждений и внешних взаимодействий с инструментами. Агентное обучение с подкреплением (Agentic Reinforcement Learning) недавно привлекло значительное внимание исследователей как ключевая парадигма пост-обучения для дальнейшего совершенствования этих возможностей. В данной статье мы представляем AT^2PO (Agentic Turn-based Policy Optimization via Tree Search) — унифицированную структуру для многоходового агентного обучения с подкреплением, которая решает три ключевые проблемы: ограниченное разнообразие исследования, разреженное распределение заслуг и несовершенная оптимизация политики. AT^2PO вводит походовую древовидную структуру, которая совместно обеспечивает Расширение Дерева с Управлением Энтропией для стратегического исследования и Походовое Распределение Заслуг для точного распространения вознаграждений от разреженных исходов. Дополняя это, мы предлагаем Агентную Походовую Оптимизацию Политики — целевую функцию обучения на уровне хода, которая согласовывает обновления политики с естественной гранулярностью решений в агентных взаимодействиях. ATPO ортогональна поиску по дереву и может быть легко интегрирована в любой конвейер многоходового обучения с подкреплением. Эксперименты на семи бенчмарках демонстрируют стабильное улучшение по сравнению с современным базовым методом вплоть до 1.84 процентных пункта в среднем, а результаты абляционных исследований подтверждают эффективность каждого компонента. Наш код доступен по адресу https://github.com/zzfoutofspace/ATPO.
English
LLM agents have emerged as powerful systems for tackling multi-turn tasks by interleaving internal reasoning and external tool interactions. Agentic Reinforcement Learning has recently drawn significant research attention as a critical post-training paradigm to further refine these capabilities. In this paper, we present AT^2PO (Agentic Turn-based Policy Optimization via Tree Search), a unified framework for multi-turn agentic RL that addresses three core challenges: limited exploration diversity, sparse credit assignment, and misaligned policy optimization. AT^2PO introduces a turn-level tree structure that jointly enables Entropy-Guided Tree Expansion for strategic exploration and Turn-wise Credit Assignment for fine-grained reward propagation from sparse outcomes. Complementing this, we propose Agentic Turn-based Policy Optimization, a turn-level learning objective that aligns policy updates with the natural decision granularity of agentic interactions. ATPO is orthogonal to tree search and can be readily integrated into any multi-turn RL pipeline. Experiments across seven benchmarks demonstrate consistent improvements over the state-of-the-art baseline by up to 1.84 percentage points in average, with ablation studies validating the effectiveness of each component. Our code is available at https://github.com/zzfoutofspace/ATPO.