Busca em Árvore para Aprendizado por Reforço de Agentes de LLM
Tree Search for LLM Agent Reinforcement Learning
September 25, 2025
Autores: Yuxiang Ji, Ziyu Ma, Yong Wang, Guanhua Chen, Xiangxiang Chu, Liaoni Wu
cs.AI
Resumo
Avanços recentes em aprendizado por reforço (RL) têm aprimorado significativamente as capacidades agentivas de grandes modelos de linguagem (LLMs). Em tarefas de agentes de longo prazo e multi-turnos, abordagens existentes guiadas apenas por recompensas de resultado frequentemente sofrem com o problema de supervisão esparsa. Para enfrentar esse desafio, propomos a Otimização de Política Relativa em Grupo Baseada em Árvore (Tree-GRPO), um método de RL para agentes agrupados baseado em busca em árvore, onde cada nó da árvore representa o passo completo de interação do agente. Ao compartilhar prefixos comuns, a amostragem de busca em árvore aumenta o número de rollouts alcançáveis dentro de um orçamento fixo de tokens ou chamadas de ferramentas. Além disso, descobrimos que a trajetória estruturada em árvore permite naturalmente a construção de sinais de supervisão passo a passo, mesmo utilizando apenas a recompensa de resultado. Com base nisso, o Tree-GRPO estima as vantagens relativas agrupadas tanto em nível intra-árvore quanto inter-árvore. Através de análise teórica, demonstramos que o objetivo da otimização de política relativa em grupo no nível intra-árvore é equivalente ao do aprendizado de preferência direta no nível de passo. Experimentos em 11 conjuntos de dados e 3 tipos de tarefas de Q&A demonstram a superioridade do RL baseado em árvore sobre o método de RL baseado em cadeia.
English
Recent advances in reinforcement learning (RL) have significantly enhanced
the agentic capabilities of large language models (LLMs). In long-term and
multi-turn agent tasks, existing approaches driven solely by outcome rewards
often suffer from the problem of sparse supervision. To address the challenge,
we propose Tree-based Group Relative Policy Optimization (Tree-GRPO), a grouped
agent RL method based on tree search, where each tree node represents the
complete agent interaction step. By sharing common prefixes, the tree search
sampling increases the number of rollouts achievable within a fixed budget of
tokens or tool calls. Moreover, we find that the tree-structured trajectory
naturally allows the construction of step-wise process supervised signals even
using only the outcome reward. Based on this, Tree-GRPO estimates the grouped
relative advantages both on intra-tree and inter-tree levels. Through
theoretical analysis, we demonstrate that the objective of intra-tree level
group relative policy optimization is equivalent to that of step-level direct
preference learning. Experiments across 11 datasets and 3 types of QA tasks
demonstrate the superiority of the proposed tree-based RL over the chain-based
RL method.