Tool-Star: 강화 학습을 통한 LLM 기반 다중 도구 추론기 강화
Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning
May 22, 2025
저자: Guanting Dong, Yifei Chen, Xiaoxi Li, Jiajie Jin, Hongjin Qian, Yutao Zhu, Hangyu Mao, Guorui Zhou, Zhicheng Dou, Ji-Rong Wen
cs.AI
초록
최근 대규모 언어 모델(LLM)은 대규모 강화 학습(RL)을 통해 놀라운 추론 능력을 보여주고 있습니다. 그러나 LLM에서 효과적인 다중 도구 협업 추론을 가능하게 하기 위해 RL 알고리즘을 활용하는 것은 여전히 해결해야 할 과제로 남아 있습니다. 본 논문에서는 단계별 추론 과정에서 LLM이 여러 외부 도구를 자율적으로 호출할 수 있도록 설계된 RL 기반 프레임워크인 Tool-Star를 소개합니다. Tool-Star는 6가지 유형의 도구를 통합하고 데이터 합성 및 훈련에 체계적인 설계를 포함합니다. 도구 사용 데이터의 부족 문제를 해결하기 위해, 우리는 도구 통합 프롬프트와 힌트 기반 샘플링을 결합하여 도구 사용 궤적을 자동적이고 확장 가능하게 생성하는 일반적인 도구 통합 추론 데이터 합성 파이프라인을 제안합니다. 이후 품질 정규화 및 난이도 인식 분류 과정을 통해 저품질 샘플을 걸러내고 데이터셋을 쉬운 것부터 어려운 순으로 구성합니다. 더 나아가, 우리는 다중 도구 협업 추론을 강화하기 위해 두 단계의 훈련 프레임워크를 제안합니다: (1) 콜드 스타트 미세 조정을 통해 도구 호출 피드백을 통해 LLM이 추론 패턴을 탐색하도록 유도하고, (2) 계층적 보상 설계를 포함한 다중 도구 자기 비판 RL 알고리즘을 통해 보상 이해를 강화하고 효과적인 도구 협업을 촉진합니다. 10개 이상의 도전적인 추론 벤치마크에 대한 실험적 분석은 Tool-Star의 효과성과 효율성을 입증합니다. 코드는 https://github.com/dongguanting/Tool-Star에서 확인할 수 있습니다.
English
Recently, large language models (LLMs) have shown remarkable reasoning
capabilities via large-scale reinforcement learning (RL). However, leveraging
the RL algorithm to empower effective multi-tool collaborative reasoning in
LLMs remains an open challenge. In this paper, we introduce Tool-Star, an
RL-based framework designed to empower LLMs to autonomously invoke multiple
external tools during stepwise reasoning. Tool-Star integrates six types of
tools and incorporates systematic designs in both data synthesis and training.
To address the scarcity of tool-use data, we propose a general tool-integrated
reasoning data synthesis pipeline, which combines tool-integrated prompting
with hint-based sampling to automatically and scalably generate tool-use
trajectories. A subsequent quality normalization and difficulty-aware
classification process filters out low-quality samples and organizes the
dataset from easy to hard. Furthermore, we propose a two-stage training
framework to enhance multi-tool collaborative reasoning by: (1) cold-start
fine-tuning, which guides LLMs to explore reasoning patterns via
tool-invocation feedback; and (2) a multi-tool self-critic RL algorithm with
hierarchical reward design, which reinforces reward understanding and promotes
effective tool collaboration. Experimental analyses on over 10 challenging
reasoning benchmarks highlight the effectiveness and efficiency of Tool-Star.
The code is available at https://github.com/dongguanting/Tool-Star.Summary
AI-Generated Summary