LLM 에이전트 강화 학습을 위한 트리 탐색
Tree Search for LLM Agent Reinforcement Learning
September 25, 2025
저자: Yuxiang Ji, Ziyu Ma, Yong Wang, Guanhua Chen, Xiangxiang Chu, Liaoni Wu
cs.AI
초록
최근 강화학습(Reinforcement Learning, RL)의 발전은 대규모 언어 모델(Large Language Models, LLMs)의 에이전트 능력을 크게 향상시켰습니다. 장기적이고 다중 턴(multi-turn) 에이전트 작업에서, 결과 보상만으로 구동되는 기존 접근법은 희소한 감독(sparse supervision) 문제에 직면하는 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 트리 탐색 기반의 그룹화된 에이전트 RL 방법인 Tree-based Group Relative Policy Optimization(Tree-GRPO)을 제안합니다. 여기서 각 트리 노드는 완전한 에이전트 상호작용 단계를 나타냅니다. 공통 접두사를 공유함으로써, 트리 탐색 샘플링은 고정된 토큰 또는 도구 호출 예산 내에서 달성 가능한 롤아웃(rollout)의 수를 증가시킵니다. 또한, 트리 구조의 궤적은 결과 보상만 사용하더라도 단계별 과정 감독 신호를 자연스럽게 구성할 수 있음을 발견했습니다. 이를 기반으로, Tree-GRPO는 트리 내(intra-tree) 및 트리 간(inter-tree) 수준에서 그룹화된 상대적 이점(relative advantage)을 추정합니다. 이론적 분석을 통해, 트리 내 수준 그룹 상대적 정책 최적화의 목표가 단계별 직접 선호 학습(step-level direct preference learning)의 목표와 동일함을 입증합니다. 11개의 데이터셋과 3가지 유형의 질의응답(QA) 작업에 걸친 실험을 통해, 제안된 트리 기반 RL 방법이 체인 기반 RL 방법보다 우수함을 입증했습니다.
English
Recent advances in reinforcement learning (RL) have significantly enhanced
the agentic capabilities of large language models (LLMs). In long-term and
multi-turn agent tasks, existing approaches driven solely by outcome rewards
often suffer from the problem of sparse supervision. To address the challenge,
we propose Tree-based Group Relative Policy Optimization (Tree-GRPO), a grouped
agent RL method based on tree search, where each tree node represents the
complete agent interaction step. By sharing common prefixes, the tree search
sampling increases the number of rollouts achievable within a fixed budget of
tokens or tool calls. Moreover, we find that the tree-structured trajectory
naturally allows the construction of step-wise process supervised signals even
using only the outcome reward. Based on this, Tree-GRPO estimates the grouped
relative advantages both on intra-tree and inter-tree levels. Through
theoretical analysis, we demonstrate that the objective of intra-tree level
group relative policy optimization is equivalent to that of step-level direct
preference learning. Experiments across 11 datasets and 3 types of QA tasks
demonstrate the superiority of the proposed tree-based RL over the chain-based
RL method.