ChatPaper.aiChatPaper

ReTool: Обучение с подкреплением для стратегического использования инструментов в больших языковых моделях

ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

April 15, 2025
Авторы: Jiazhan Feng, Shijue Huang, Xingwei Qu, Ge Zhang, Yujia Qin, Baoquan Zhong, Chengquan Jiang, Jinxin Chi, Wanjun Zhong
cs.AI

Аннотация

Хотя модели рассуждений (например, DeepSeek R1), обученные с использованием обучения с подкреплением (RL), преуспевают в текстовых рассуждениях, они сталкиваются с трудностями в сценариях, требующих структурированного решения задач, таких как геометрические рассуждения, краткие вычисления или решение сложных уравнений — областях, где вычислительные инструменты, такие как интерпретаторы кода (CI), демонстрируют явные преимущества. Чтобы устранить этот разрыв, мы предлагаем ReTool, который улучшает длинные рассуждения за счет интеграции инструментов, включая две ключевые особенности: (1) динамическое чередование выполнения кода в реальном времени в рамках процессов рассуждений на естественном языке и (2) автоматизированная парадигма RL, которая позволяет выполнять политики с многошаговым выполнением кода в реальном времени и обучает модель тому, когда и как использовать инструменты на основе обратной связи по результатам. ReTool использует систематическую структуру обучения, начиная с генерации синтетических данных для холодного старта, чтобы создать расширенные кодом трассы длинных рассуждений для тонкой настройки базовых моделей. Последующее обучение RL использует результаты задач в качестве вознаграждений для итеративного улучшения стратегии использования инструментов моделью, что позволяет автономно находить оптимальные шаблоны вызова инструментов без предварительных знаний человека. Эксперименты на сложном эталоне MATH Olympiad AIME демонстрируют превосходство ReTool: наша 32B модель достигает 67% точности за 400 шагов обучения, превосходя текстовый RL-базис (40% точности, 1080 шагов) по эффективности и производительности. Примечательно, что ReTool-32B достигает 72,5% точности в расширенных настройках, превосходя OpenAI o1-preview на 27,9%. Дополнительный анализ выявляет возникающие поведенческие паттерны, такие как самокоррекция кода, сигнализирующие о «моменте озарения», когда модель автономно осваивает адаптивное использование инструментов. Эти результаты подчеркивают перспективность интеграции инструментов, управляемой результатами, для продвижения сложных математических рассуждений и предлагают новые инсайты в гибридные нейро-символические системы.
English
While reasoning models (e.g., DeepSeek R1) trained with reinforcement learning (RL), excel in textual reasoning, they struggle in scenarios requiring structured problem-solving, such as geometric reasoning, concise computation, or complex equation solving-areas where computational tools like code interpreters (CI) demonstrate distinct advantages. To bridge this gap, we propose ReTool, which enhances long-form reasoning with tool-integrated learning, including two key features: (1) dynamic interleaving of real-time code execution within natural language reasoning processes, and (2) an automated RL paradigm that allows policy rollouts with multi-turn real-time code execution and teaches the model in learning when and how to invoke tools based on outcome feedback. ReTool employs a systematic training framework, beginning with synthetic cold-start data generation to produce code-augmented long-form reasoning traces for fine-tuning base models. Subsequent RL training leverages task outcomes as rewards to iteratively refine the model's tool use strategy, enabling autonomous discovery of optimal tool invocation patterns without human priors. Experiments on the challenging MATH Olympiad benchmark AIME demonstrate ReTool's superiority: Our 32B model achieves 67% accuracy with 400 training steps, outperforming text-based RL baseline (40% accuracy, 1080 steps) in efficiency and performance. Remarkably, ReTool-32B attains 72.5% accuracy in extended settings, surpassing OpenAI's o1-preview by 27.9%. Further analysis reveals emergent behaviors such as code self-correction, signaling an ''aha moment'' in which the model autonomously masters adaptive tool use. These findings highlight the promise of outcome-driven tool integration for advancing complex mathematical reasoning and offer new insights into hybrid neuro-symbolic systems.

Summary

AI-Generated Summary

PDF604April 17, 2025