ChatPaper.aiChatPaper

Boomzoektocht voor Versterkend Leren van LLM-Agenten

Tree Search for LLM Agent Reinforcement Learning

September 25, 2025
Auteurs: Yuxiang Ji, Ziyu Ma, Yong Wang, Guanhua Chen, Xiangxiang Chu, Liaoni Wu
cs.AI

Samenvatting

Recente vooruitgang in reinforcement learning (RL) heeft de agentische capaciteiten van grote taalmodellen (LLMs) aanzienlijk verbeterd. Bij langdurige en meervoudige agenttaken kampen bestaande benaderingen die uitsluitend worden aangedreven door uitkomstbeloningen vaak met het probleem van schaarse supervisie. Om deze uitdaging aan te pakken, stellen we Tree-based Group Relative Policy Optimization (Tree-GRPO) voor, een gegroepeerde agent-RL-methode gebaseerd op boomzoeken, waarbij elke boomknoop de volledige agentinteractiestap vertegenwoordigt. Door gemeenschappelijke prefixen te delen, verhoogt het boomzoeken het aantal rollouts dat binnen een vast budget van tokens of toolaanroepen kan worden bereikt. Bovendien ontdekken we dat de boomgestructureerde trajecten op natuurlijke wijze de constructie van stapgewijze procesgesuperviseerde signalen mogelijk maken, zelfs bij gebruik van alleen de uitkomstbeloning. Op basis hiervan schat Tree-GRPO de gegroepeerde relatieve voordelen in op zowel intra-boom- als inter-boomniveau. Door theoretische analyse tonen we aan dat het doel van intra-boomniveau gegroepeerde relatieve beleidsoptimalisatie equivalent is aan dat van stapgewijze directe voorkeursleren. Experimenten over 11 datasets en 3 soorten QA-taken demonstreren de superioriteit van de voorgestelde boomgebaseerde RL-methode ten opzichte van de ketengebaseerde RL-methode.
English
Recent advances in reinforcement learning (RL) have significantly enhanced the agentic capabilities of large language models (LLMs). In long-term and multi-turn agent tasks, existing approaches driven solely by outcome rewards often suffer from the problem of sparse supervision. To address the challenge, we propose Tree-based Group Relative Policy Optimization (Tree-GRPO), a grouped agent RL method based on tree search, where each tree node represents the complete agent interaction step. By sharing common prefixes, the tree search sampling increases the number of rollouts achievable within a fixed budget of tokens or tool calls. Moreover, we find that the tree-structured trajectory naturally allows the construction of step-wise process supervised signals even using only the outcome reward. Based on this, Tree-GRPO estimates the grouped relative advantages both on intra-tree and inter-tree levels. Through theoretical analysis, we demonstrate that the objective of intra-tree level group relative policy optimization is equivalent to that of step-level direct preference learning. Experiments across 11 datasets and 3 types of QA tasks demonstrate the superiority of the proposed tree-based RL over the chain-based RL method.
PDF873September 26, 2025