ReTool: Aprendizaje por Refuerzo para el Uso Estratégico de Herramientas en Modelos de Lenguaje de Gran Escala
ReTool: Reinforcement Learning for Strategic Tool Use in LLMs
April 15, 2025
Autores: Jiazhan Feng, Shijue Huang, Xingwei Qu, Ge Zhang, Yujia Qin, Baoquan Zhong, Chengquan Jiang, Jinxin Chi, Wanjun Zhong
cs.AI
Resumen
Si bien los modelos de razonamiento (por ejemplo, DeepSeek R1) entrenados con aprendizaje por refuerzo (RL) sobresalen en el razonamiento textual, tienen dificultades en escenarios que requieren resolución estructurada de problemas, como el razonamiento geométrico, cálculos concisos o la resolución de ecuaciones complejas, áreas donde herramientas computacionales como los intérpretes de código (CI) demuestran ventajas distintivas. Para cerrar esta brecha, proponemos ReTool, que mejora el razonamiento de largo formato con aprendizaje integrado de herramientas, incluyendo dos características clave: (1) intercalación dinámica de ejecución de código en tiempo real dentro de procesos de razonamiento en lenguaje natural, y (2) un paradigma automatizado de RL que permite despliegues de políticas con ejecución de código en tiempo real en múltiples turnos y enseña al modelo cuándo y cómo invocar herramientas basándose en retroalimentación de resultados. ReTool emplea un marco de entrenamiento sistemático, comenzando con la generación de datos sintéticos de arranque en frío para producir trazas de razonamiento de largo formato aumentadas con código, utilizadas para ajustar modelos base. El entrenamiento posterior de RL aprovecha los resultados de las tareas como recompensas para refinar iterativamente la estrategia de uso de herramientas del modelo, permitiendo el descubrimiento autónomo de patrones óptimos de invocación de herramientas sin conocimientos previos humanos. Los experimentos en el desafiante benchmark de la Olimpiada Matemática AIME demuestran la superioridad de ReTool: Nuestro modelo de 32B alcanza un 67% de precisión con 400 pasos de entrenamiento, superando en eficiencia y rendimiento a la línea base de RL basada en texto (40% de precisión, 1080 pasos). Notablemente, ReTool-32B alcanza un 72.5% de precisión en configuraciones extendidas, superando a OpenAI's o1-preview por un 27.9%. Un análisis más profundo revela comportamientos emergentes, como la autocorrección de código, señalando un "momento eureka" en el que el modelo domina autónomamente el uso adaptativo de herramientas. Estos hallazgos resaltan la promesa de la integración de herramientas impulsada por resultados para avanzar en el razonamiento matemático complejo y ofrecen nuevas perspectivas sobre sistemas híbridos neuro-simbólicos.
English
While reasoning models (e.g., DeepSeek R1) trained with reinforcement
learning (RL), excel in textual reasoning, they struggle in scenarios requiring
structured problem-solving, such as geometric reasoning, concise computation,
or complex equation solving-areas where computational tools like code
interpreters (CI) demonstrate distinct advantages. To bridge this gap, we
propose ReTool, which enhances long-form reasoning with tool-integrated
learning, including two key features: (1) dynamic interleaving of real-time
code execution within natural language reasoning processes, and (2) an
automated RL paradigm that allows policy rollouts with multi-turn real-time
code execution and teaches the model in learning when and how to invoke tools
based on outcome feedback. ReTool employs a systematic training framework,
beginning with synthetic cold-start data generation to produce code-augmented
long-form reasoning traces for fine-tuning base models. Subsequent RL training
leverages task outcomes as rewards to iteratively refine the model's tool use
strategy, enabling autonomous discovery of optimal tool invocation patterns
without human priors. Experiments on the challenging MATH Olympiad benchmark
AIME demonstrate ReTool's superiority: Our 32B model achieves 67% accuracy with
400 training steps, outperforming text-based RL baseline (40% accuracy, 1080
steps) in efficiency and performance. Remarkably, ReTool-32B attains 72.5%
accuracy in extended settings, surpassing OpenAI's o1-preview by 27.9%. Further
analysis reveals emergent behaviors such as code self-correction, signaling an
''aha moment'' in which the model autonomously masters adaptive tool use. These
findings highlight the promise of outcome-driven tool integration for advancing
complex mathematical reasoning and offer new insights into hybrid
neuro-symbolic systems.Summary
AI-Generated Summary