Baumsuche für Reinforcement Learning von LLM-Agenten
Tree Search for LLM Agent Reinforcement Learning
September 25, 2025
papers.authors: Yuxiang Ji, Ziyu Ma, Yong Wang, Guanhua Chen, Xiangxiang Chu, Liaoni Wu
cs.AI
papers.abstract
Jüngste Fortschritte im Bereich des Reinforcement Learning (RL) haben die agentenbasierten Fähigkeiten großer Sprachmodelle (LLMs) erheblich verbessert. Bei langfristigen und mehrstufigen Agentenaufgaben leiden bestehende Ansätze, die ausschließlich durch Ergebnisbelohnungen gesteuert werden, häufig unter dem Problem der spärlichen Überwachung. Um diese Herausforderung zu bewältigen, schlagen wir Tree-based Group Relative Policy Optimization (Tree-GRPO) vor, eine gruppenbasierte RL-Methode, die auf Baumsuche basiert, wobei jeder Baumknoten den vollständigen Interaktionsschritt des Agenten darstellt. Durch das Teilen gemeinsamer Präfixe erhöht die Baumsuche die Anzahl der Rollouts, die innerhalb eines festen Budgets von Token oder Tool-Aufrufen erreichbar sind. Darüber hinaus stellen wir fest, dass die baumstrukturierte Trajektorie die Konstruktion schrittweiser Prozessüberwachungssignale ermöglicht, selbst wenn nur die Ergebnisbelohnung verwendet wird. Basierend darauf schätzt Tree-GRPO die gruppenbezogenen relativen Vorteile sowohl auf intra- als auch auf inter-Baum-Ebene. Durch theoretische Analysen zeigen wir, dass das Ziel der gruppenbezogenen Policy-Optimierung auf intra-Baum-Ebene dem des schrittweisen direkten Präferenzlernens entspricht. Experimente über 11 Datensätze und 3 Arten von QA-Aufgaben demonstrieren die Überlegenheit des vorgeschlagenen baumbasierten RL gegenüber der kettenbasierten RL-Methode.
English
Recent advances in reinforcement learning (RL) have significantly enhanced
the agentic capabilities of large language models (LLMs). In long-term and
multi-turn agent tasks, existing approaches driven solely by outcome rewards
often suffer from the problem of sparse supervision. To address the challenge,
we propose Tree-based Group Relative Policy Optimization (Tree-GRPO), a grouped
agent RL method based on tree search, where each tree node represents the
complete agent interaction step. By sharing common prefixes, the tree search
sampling increases the number of rollouts achievable within a fixed budget of
tokens or tool calls. Moreover, we find that the tree-structured trajectory
naturally allows the construction of step-wise process supervised signals even
using only the outcome reward. Based on this, Tree-GRPO estimates the grouped
relative advantages both on intra-tree and inter-tree levels. Through
theoretical analysis, we demonstrate that the objective of intra-tree level
group relative policy optimization is equivalent to that of step-level direct
preference learning. Experiments across 11 datasets and 3 types of QA tasks
demonstrate the superiority of the proposed tree-based RL over the chain-based
RL method.