ChatPaper.aiChatPaper

Tool-Star: Capacitando o Raciocinador Multi-Ferramentas com Cérebro de LLM por meio de Aprendizado por Reforço

Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning

May 22, 2025
Autores: Guanting Dong, Yifei Chen, Xiaoxi Li, Jiajie Jin, Hongjin Qian, Yutao Zhu, Hangyu Mao, Guorui Zhou, Zhicheng Dou, Ji-Rong Wen
cs.AI

Resumo

Recentemente, modelos de linguagem de grande escala (LLMs) demonstraram capacidades notáveis de raciocínio por meio de aprendizado por reforço em larga escala (RL). No entanto, aproveitar o algoritmo de RL para capacitar o raciocínio colaborativo eficaz com múltiplas ferramentas em LLMs continua sendo um desafio em aberto. Neste artigo, apresentamos o Tool-Star, um framework baseado em RL projetado para capacitar LLMs a invocar autonomamente múltiplas ferramentas externas durante o raciocínio passo a passo. O Tool-Star integra seis tipos de ferramentas e incorpora designs sistemáticos tanto na síntese de dados quanto no treinamento. Para lidar com a escassez de dados de uso de ferramentas, propomos um pipeline geral de síntese de dados de raciocínio integrado a ferramentas, que combina prompts integrados a ferramentas com amostragem baseada em dicas para gerar automaticamente e de forma escalável trajetórias de uso de ferramentas. Um processo subsequente de normalização de qualidade e classificação consciente da dificuldade filtra amostras de baixa qualidade e organiza o conjunto de dados do fácil para o difícil. Além disso, propomos um framework de treinamento em duas etapas para aprimorar o raciocínio colaborativo com múltiplas ferramentas: (1) ajuste fino de partida a frio, que orienta os LLMs a explorar padrões de raciocínio por meio de feedback de invocação de ferramentas; e (2) um algoritmo de RL de auto-crítica com múltiplas ferramentas e design hierárquico de recompensa, que reforça a compreensão das recompensas e promove a colaboração eficaz de ferramentas. Análises experimentais em mais de 10 benchmarks desafiadores de raciocínio destacam a eficácia e eficiência do Tool-Star. O código está disponível em https://github.com/dongguanting/Tool-Star.
English
Recently, large language models (LLMs) have shown remarkable reasoning capabilities via large-scale reinforcement learning (RL). However, leveraging the RL algorithm to empower effective multi-tool collaborative reasoning in LLMs remains an open challenge. In this paper, we introduce Tool-Star, an RL-based framework designed to empower LLMs to autonomously invoke multiple external tools during stepwise reasoning. Tool-Star integrates six types of tools and incorporates systematic designs in both data synthesis and training. To address the scarcity of tool-use data, we propose a general tool-integrated reasoning data synthesis pipeline, which combines tool-integrated prompting with hint-based sampling to automatically and scalably generate tool-use trajectories. A subsequent quality normalization and difficulty-aware classification process filters out low-quality samples and organizes the dataset from easy to hard. Furthermore, we propose a two-stage training framework to enhance multi-tool collaborative reasoning by: (1) cold-start fine-tuning, which guides LLMs to explore reasoning patterns via tool-invocation feedback; and (2) a multi-tool self-critic RL algorithm with hierarchical reward design, which reinforces reward understanding and promotes effective tool collaboration. Experimental analyses on over 10 challenging reasoning benchmarks highlight the effectiveness and efficiency of Tool-Star. The code is available at https://github.com/dongguanting/Tool-Star.
PDF582December 14, 2025