Ricerca ad Albero per il Rinforzo dell'Apprendimento degli Agenti LLM
Tree Search for LLM Agent Reinforcement Learning
September 25, 2025
Autori: Yuxiang Ji, Ziyu Ma, Yong Wang, Guanhua Chen, Xiangxiang Chu, Liaoni Wu
cs.AI
Abstract
I recenti progressi nell'apprendimento per rinforzo (RL) hanno significativamente migliorato le capacità agentive dei grandi modelli linguistici (LLMs). Nei compiti agentivi a lungo termine e multi-turn, gli approcci esistenti guidati esclusivamente da ricompense basate sui risultati spesso soffrono del problema della supervisione sparsa. Per affrontare questa sfida, proponiamo l'ottimizzazione relativa delle politiche basata su gruppi ad albero (Tree-GRPO), un metodo RL per agenti raggruppati basato sulla ricerca ad albero, in cui ogni nodo dell'albero rappresenta il passo completo di interazione dell'agente. Condividendo prefissi comuni, il campionamento della ricerca ad albero aumenta il numero di rollout ottenibili entro un budget fisso di token o chiamate a strumenti. Inoltre, scopriamo che la traiettoria strutturata ad albero permette naturalmente la costruzione di segnali di supervisione passo-passo anche utilizzando solo la ricompensa basata sul risultato. Sulla base di ciò, Tree-GRPO stima i vantaggi relativi raggruppati sia a livello intra-albero che inter-albero. Attraverso l'analisi teorica, dimostriamo che l'obiettivo dell'ottimizzazione relativa delle politiche a livello intra-albero è equivalente a quello dell'apprendimento diretto delle preferenze a livello di passo. Esperimenti su 11 dataset e 3 tipi di compiti di domanda-risposta dimostrano la superiorità del metodo RL basato su albero rispetto al metodo RL basato su catena.
English
Recent advances in reinforcement learning (RL) have significantly enhanced
the agentic capabilities of large language models (LLMs). In long-term and
multi-turn agent tasks, existing approaches driven solely by outcome rewards
often suffer from the problem of sparse supervision. To address the challenge,
we propose Tree-based Group Relative Policy Optimization (Tree-GRPO), a grouped
agent RL method based on tree search, where each tree node represents the
complete agent interaction step. By sharing common prefixes, the tree search
sampling increases the number of rollouts achievable within a fixed budget of
tokens or tool calls. Moreover, we find that the tree-structured trajectory
naturally allows the construction of step-wise process supervised signals even
using only the outcome reward. Based on this, Tree-GRPO estimates the grouped
relative advantages both on intra-tree and inter-tree levels. Through
theoretical analysis, we demonstrate that the objective of intra-tree level
group relative policy optimization is equivalent to that of step-level direct
preference learning. Experiments across 11 datasets and 3 types of QA tasks
demonstrate the superiority of the proposed tree-based RL over the chain-based
RL method.