AT^2PO: Agent-gebaseerd beurtelings beleidsoptimalisatie via boomzoeken

Samenvatting

LLM-agents zijn opgekomen als krachtige systemen voor het aanpakken van multitake-taken door interne redenering en externe toolinteracties af te wisselen. Agentic Reinforcement Learning (versterkend leren met agenten) heeft recentelijk veel onderzoeksaandacht getrokken als een cruciaal paradigma voor nabewerking om deze capaciteiten verder te verfijnen. In dit artikel presenteren we AT²PO (Agentic Turn-based Policy Optimization via Tree Search), een uniform kader voor multitake agentic RL dat drie kernuitdagingen aanpakt: beperkte verkenningdiversiteit, sporadische krediettoewijzing en niet-uitgelijnde beleidsoptimalisatie. AT²PO introduceert een turn-gebaseerde boomstructuur die gezamenlijk Entropy-Guided Tree Expansion mogelijk maakt voor strategische verkenning en Turn-wise Credit Assignment voor fijnmazige beloningspropagatie vanuit sporadische uitkomsten. Hierop aanvullend stellen we Agentic Turn-based Policy Optimization voor, een turn-gebaseerd leerdoel dat beleidsupdates uitlijnt met de natuurlijke beslissingsgranulariteit van agentische interacties. ATPO staat orthogonaal op boomzoeken en kan moeiteloos worden geïntegreerd in elke multitake RL-pijplijn. Experimenten over zeven benchmarks tonen consistente verbeteringen ten opzichte van de state-of-the-art baseline met tot 1,84 procentpunt gemiddeld, waarbij ablatiestudies de effectiviteit van elke component valideren. Onze code is beschikbaar op https://github.com/zzfoutofspace/ATPO.

English

LLM agents have emerged as powerful systems for tackling multi-turn tasks by interleaving internal reasoning and external tool interactions. Agentic Reinforcement Learning has recently drawn significant research attention as a critical post-training paradigm to further refine these capabilities. In this paper, we present AT^2PO (Agentic Turn-based Policy Optimization via Tree Search), a unified framework for multi-turn agentic RL that addresses three core challenges: limited exploration diversity, sparse credit assignment, and misaligned policy optimization. AT^2PO introduces a turn-level tree structure that jointly enables Entropy-Guided Tree Expansion for strategic exploration and Turn-wise Credit Assignment for fine-grained reward propagation from sparse outcomes. Complementing this, we propose Agentic Turn-based Policy Optimization, a turn-level learning objective that aligns policy updates with the natural decision granularity of agentic interactions. ATPO is orthogonal to tree search and can be readily integrated into any multi-turn RL pipeline. Experiments across seven benchmarks demonstrate consistent improvements over the state-of-the-art baseline by up to 1.84 percentage points in average, with ablation studies validating the effectiveness of each component. Our code is available at https://github.com/zzfoutofspace/ATPO.

AT^2PO: Agent-gebaseerd beurtelings beleidsoptimalisatie via boomzoeken

AT^2PO: Agentic Turn-based Policy Optimization via Tree Search

Samenvatting

Support