Recherche arborescente pour l'apprentissage par renforcement des agents LLM
Tree Search for LLM Agent Reinforcement Learning
September 25, 2025
papers.authors: Yuxiang Ji, Ziyu Ma, Yong Wang, Guanhua Chen, Xiangxiang Chu, Liaoni Wu
cs.AI
papers.abstract
Les récents progrès en apprentissage par renforcement (RL) ont considérablement amélioré les capacités agentiques des grands modèles de langage (LLMs). Dans les tâches agentiques à long terme et à tours multiples, les approches existantes, guidées uniquement par des récompenses de résultat, souffrent souvent du problème de supervision parcellaire. Pour relever ce défi, nous proposons l'Optimisation de Politique Relative Groupée basée sur les Arbres (Tree-GRPO), une méthode RL d'agents groupés fondée sur la recherche arborescente, où chaque nœud de l'arbre représente une étape complète d'interaction de l'agent. En partageant des préfixes communs, l'échantillonnage par recherche arborescente augmente le nombre de déploiements réalisables dans un budget fixe de tokens ou d'appels d'outils. De plus, nous constatons que la trajectoire structurée en arbre permet naturellement la construction de signaux de supervision étape par étape, même en utilisant uniquement la récompense de résultat. Sur cette base, Tree-GRPO estime les avantages relatifs groupés à la fois aux niveaux intra-arbre et inter-arbre. Grâce à une analyse théorique, nous démontrons que l'objectif de l'optimisation de politique relative groupée au niveau intra-arbre est équivalent à celui de l'apprentissage direct des préférences au niveau des étapes. Les expériences menées sur 11 jeux de données et 3 types de tâches de question-réponse démontrent la supériorité de la méthode RL basée sur les arbres par rapport à la méthode RL basée sur les chaînes.
English
Recent advances in reinforcement learning (RL) have significantly enhanced
the agentic capabilities of large language models (LLMs). In long-term and
multi-turn agent tasks, existing approaches driven solely by outcome rewards
often suffer from the problem of sparse supervision. To address the challenge,
we propose Tree-based Group Relative Policy Optimization (Tree-GRPO), a grouped
agent RL method based on tree search, where each tree node represents the
complete agent interaction step. By sharing common prefixes, the tree search
sampling increases the number of rollouts achievable within a fixed budget of
tokens or tool calls. Moreover, we find that the tree-structured trajectory
naturally allows the construction of step-wise process supervised signals even
using only the outcome reward. Based on this, Tree-GRPO estimates the grouped
relative advantages both on intra-tree and inter-tree levels. Through
theoretical analysis, we demonstrate that the objective of intra-tree level
group relative policy optimization is equivalent to that of step-level direct
preference learning. Experiments across 11 datasets and 3 types of QA tasks
demonstrate the superiority of the proposed tree-based RL over the chain-based
RL method.