ReTool: Aprendizado por Reforço para Uso Estratégico de Ferramentas em LLMs
ReTool: Reinforcement Learning for Strategic Tool Use in LLMs
April 15, 2025
Autores: Jiazhan Feng, Shijue Huang, Xingwei Qu, Ge Zhang, Yujia Qin, Baoquan Zhong, Chengquan Jiang, Jinxin Chi, Wanjun Zhong
cs.AI
Resumo
Embora modelos de raciocínio (por exemplo, DeepSeek R1) treinados com aprendizado por reforço (RL) se destaquem no raciocínio textual, eles enfrentam dificuldades em cenários que exigem resolução estruturada de problemas, como raciocínio geométrico, computação concisa ou resolução de equações complexas — áreas onde ferramentas computacionais como interpretadores de código (CI) demonstram vantagens distintas. Para preencher essa lacuna, propomos o ReTool, que aprimora o raciocínio de longo formato com aprendizado integrado a ferramentas, incluindo duas características principais: (1) intercalação dinâmica de execução de código em tempo real dentro de processos de raciocínio em linguagem natural, e (2) um paradigma de RL automatizado que permite execuções de políticas com execução de código em tempo real em múltiplas etapas e ensina o modelo a aprender quando e como invocar ferramentas com base no feedback dos resultados. O ReTool emprega um framework de treinamento sistemático, começando com a geração de dados sintéticos de inicialização a frio para produzir traços de raciocínio de longo formato aumentados com código para ajuste fino de modelos base. O treinamento subsequente de RL aproveita os resultados das tarefas como recompensas para refinar iterativamente a estratégia de uso de ferramentas do modelo, permitindo a descoberta autônoma de padrões ótimos de invocação de ferramentas sem prévios humanos. Experimentos no desafiador benchmark MATH Olympiad AIME demonstram a superioridade do ReTool: Nosso modelo de 32B alcança 67% de precisão com 400 etapas de treinamento, superando a linha de base de RL baseada em texto (40% de precisão, 1080 etapas) em eficiência e desempenho. Notavelmente, o ReTool-32B atinge 72,5% de precisão em configurações estendidas, superando o o1-preview da OpenAI em 27,9%. Análises adicionais revelam comportamentos emergentes, como autocorreção de código, sinalizando um "momento de insight" no qual o modelo domina autonomamente o uso adaptativo de ferramentas. Esses achados destacam o potencial da integração de ferramentas orientada por resultados para avançar o raciocínio matemático complexo e oferecem novas perspectivas sobre sistemas híbridos neuro-simbólicos.
English
While reasoning models (e.g., DeepSeek R1) trained with reinforcement
learning (RL), excel in textual reasoning, they struggle in scenarios requiring
structured problem-solving, such as geometric reasoning, concise computation,
or complex equation solving-areas where computational tools like code
interpreters (CI) demonstrate distinct advantages. To bridge this gap, we
propose ReTool, which enhances long-form reasoning with tool-integrated
learning, including two key features: (1) dynamic interleaving of real-time
code execution within natural language reasoning processes, and (2) an
automated RL paradigm that allows policy rollouts with multi-turn real-time
code execution and teaches the model in learning when and how to invoke tools
based on outcome feedback. ReTool employs a systematic training framework,
beginning with synthetic cold-start data generation to produce code-augmented
long-form reasoning traces for fine-tuning base models. Subsequent RL training
leverages task outcomes as rewards to iteratively refine the model's tool use
strategy, enabling autonomous discovery of optimal tool invocation patterns
without human priors. Experiments on the challenging MATH Olympiad benchmark
AIME demonstrate ReTool's superiority: Our 32B model achieves 67% accuracy with
400 training steps, outperforming text-based RL baseline (40% accuracy, 1080
steps) in efficiency and performance. Remarkably, ReTool-32B attains 72.5%
accuracy in extended settings, surpassing OpenAI's o1-preview by 27.9%. Further
analysis reveals emergent behaviors such as code self-correction, signaling an
''aha moment'' in which the model autonomously masters adaptive tool use. These
findings highlight the promise of outcome-driven tool integration for advancing
complex mathematical reasoning and offer new insights into hybrid
neuro-symbolic systems.Summary
AI-Generated Summary