ChatPaper.aiChatPaper

Búsqueda en Árbol para el Aprendizaje por Refuerzo de Agentes de Modelos de Lenguaje Grande

Tree Search for LLM Agent Reinforcement Learning

September 25, 2025
Autores: Yuxiang Ji, Ziyu Ma, Yong Wang, Guanhua Chen, Xiangxiang Chu, Liaoni Wu
cs.AI

Resumen

Los avances recientes en el aprendizaje por refuerzo (RL) han mejorado significativamente las capacidades agentivas de los modelos de lenguaje grandes (LLMs). En tareas agentivas a largo plazo y de múltiples turnos, los enfoques existentes impulsados únicamente por recompensas de resultado suelen enfrentarse al problema de supervisión dispersa. Para abordar este desafío, proponemos la Optimización de Política Relativa Grupal Basada en Árboles (Tree-GRPO), un método de RL de agentes agrupados basado en búsqueda en árboles, donde cada nodo del árbol representa el paso completo de interacción del agente. Al compartir prefijos comunes, el muestreo de búsqueda en árboles aumenta el número de rollouts alcanzables dentro de un presupuesto fijo de tokens o llamadas a herramientas. Además, encontramos que la trayectoria estructurada en árbol permite naturalmente la construcción de señales de supervisión paso a paso, incluso utilizando solo la recompensa de resultado. Basándonos en esto, Tree-GRPO estima las ventajas relativas agrupadas tanto a nivel intra-árbol como inter-árbol. A través de análisis teórico, demostramos que el objetivo de la optimización de política relativa grupal a nivel intra-árbol es equivalente al del aprendizaje de preferencias directas a nivel de paso. Los experimentos en 11 conjuntos de datos y 3 tipos de tareas de preguntas y respuestas demuestran la superioridad del RL basado en árboles propuesto sobre el método de RL basado en cadenas.
English
Recent advances in reinforcement learning (RL) have significantly enhanced the agentic capabilities of large language models (LLMs). In long-term and multi-turn agent tasks, existing approaches driven solely by outcome rewards often suffer from the problem of sparse supervision. To address the challenge, we propose Tree-based Group Relative Policy Optimization (Tree-GRPO), a grouped agent RL method based on tree search, where each tree node represents the complete agent interaction step. By sharing common prefixes, the tree search sampling increases the number of rollouts achievable within a fixed budget of tokens or tool calls. Moreover, we find that the tree-structured trajectory naturally allows the construction of step-wise process supervised signals even using only the outcome reward. Based on this, Tree-GRPO estimates the grouped relative advantages both on intra-tree and inter-tree levels. Through theoretical analysis, we demonstrate that the objective of intra-tree level group relative policy optimization is equivalent to that of step-level direct preference learning. Experiments across 11 datasets and 3 types of QA tasks demonstrate the superiority of the proposed tree-based RL over the chain-based RL method.
PDF812September 26, 2025