Boomzoektocht voor Versterkend Leren van LLM-Agenten
Tree Search for LLM Agent Reinforcement Learning
September 25, 2025
Auteurs: Yuxiang Ji, Ziyu Ma, Yong Wang, Guanhua Chen, Xiangxiang Chu, Liaoni Wu
cs.AI
Samenvatting
Recente vooruitgang in reinforcement learning (RL) heeft de agentische capaciteiten van grote taalmodellen (LLMs) aanzienlijk verbeterd. Bij langdurige en meervoudige agenttaken kampen bestaande benaderingen die uitsluitend worden aangedreven door uitkomstbeloningen vaak met het probleem van schaarse supervisie. Om deze uitdaging aan te pakken, stellen we Tree-based Group Relative Policy Optimization (Tree-GRPO) voor, een gegroepeerde agent-RL-methode gebaseerd op boomzoeken, waarbij elke boomknoop de volledige agentinteractiestap vertegenwoordigt. Door gemeenschappelijke prefixen te delen, verhoogt het boomzoeken het aantal rollouts dat binnen een vast budget van tokens of toolaanroepen kan worden bereikt. Bovendien ontdekken we dat de boomgestructureerde trajecten op natuurlijke wijze de constructie van stapgewijze procesgesuperviseerde signalen mogelijk maken, zelfs bij gebruik van alleen de uitkomstbeloning. Op basis hiervan schat Tree-GRPO de gegroepeerde relatieve voordelen in op zowel intra-boom- als inter-boomniveau. Door theoretische analyse tonen we aan dat het doel van intra-boomniveau gegroepeerde relatieve beleidsoptimalisatie equivalent is aan dat van stapgewijze directe voorkeursleren. Experimenten over 11 datasets en 3 soorten QA-taken demonstreren de superioriteit van de voorgestelde boomgebaseerde RL-methode ten opzichte van de ketengebaseerde RL-methode.
English
Recent advances in reinforcement learning (RL) have significantly enhanced
the agentic capabilities of large language models (LLMs). In long-term and
multi-turn agent tasks, existing approaches driven solely by outcome rewards
often suffer from the problem of sparse supervision. To address the challenge,
we propose Tree-based Group Relative Policy Optimization (Tree-GRPO), a grouped
agent RL method based on tree search, where each tree node represents the
complete agent interaction step. By sharing common prefixes, the tree search
sampling increases the number of rollouts achievable within a fixed budget of
tokens or tool calls. Moreover, we find that the tree-structured trajectory
naturally allows the construction of step-wise process supervised signals even
using only the outcome reward. Based on this, Tree-GRPO estimates the grouped
relative advantages both on intra-tree and inter-tree levels. Through
theoretical analysis, we demonstrate that the objective of intra-tree level
group relative policy optimization is equivalent to that of step-level direct
preference learning. Experiments across 11 datasets and 3 types of QA tasks
demonstrate the superiority of the proposed tree-based RL over the chain-based
RL method.