ChatPaper.aiChatPaper

Поиск по дереву для обучения с подкреплением агентов на основе больших языковых моделей

Tree Search for LLM Agent Reinforcement Learning

September 25, 2025
Авторы: Yuxiang Ji, Ziyu Ma, Yong Wang, Guanhua Chen, Xiangxiang Chu, Liaoni Wu
cs.AI

Аннотация

Последние достижения в области обучения с подкреплением (RL) значительно расширили агентные возможности больших языковых моделей (LLM). В долгосрочных и многоходовых задачах для агентов существующие подходы, основанные исключительно на наградах за результат, часто сталкиваются с проблемой разреженного обучения. Для решения этой проблемы мы предлагаем Tree-based Group Relative Policy Optimization (Tree-GRPO) — метод группового RL для агентов, основанный на поиске по дереву, где каждый узел дерева представляет полный шаг взаимодействия агента. Благодаря общим префиксам, выборка при поиске по дереву увеличивает количество возможных прогонов при фиксированном бюджете токенов или вызовов инструментов. Более того, мы обнаруживаем, что древовидная структура траектории естественным образом позволяет создавать пошаговые сигналы обучения даже при использовании только награды за результат. На основе этого Tree-GRPO оценивает относительные преимущества групп как на внутридеревном, так и на междеревном уровнях. С помощью теоретического анализа мы показываем, что цель оптимизации групповой относительной политики на внутридеревном уровне эквивалентна задаче пошагового прямого обучения предпочтениям. Эксперименты на 11 наборах данных и 3 типах задач вопросов и ответов демонстрируют превосходство предложенного древовидного RL над цепочечным методом RL.
English
Recent advances in reinforcement learning (RL) have significantly enhanced the agentic capabilities of large language models (LLMs). In long-term and multi-turn agent tasks, existing approaches driven solely by outcome rewards often suffer from the problem of sparse supervision. To address the challenge, we propose Tree-based Group Relative Policy Optimization (Tree-GRPO), a grouped agent RL method based on tree search, where each tree node represents the complete agent interaction step. By sharing common prefixes, the tree search sampling increases the number of rollouts achievable within a fixed budget of tokens or tool calls. Moreover, we find that the tree-structured trajectory naturally allows the construction of step-wise process supervised signals even using only the outcome reward. Based on this, Tree-GRPO estimates the grouped relative advantages both on intra-tree and inter-tree levels. Through theoretical analysis, we demonstrate that the objective of intra-tree level group relative policy optimization is equivalent to that of step-level direct preference learning. Experiments across 11 datasets and 3 types of QA tasks demonstrate the superiority of the proposed tree-based RL over the chain-based RL method.
PDF812September 26, 2025