START: Razonador Autodidacta con Herramientas
START: Self-taught Reasoner with Tools
March 6, 2025
Autores: Chengpeng Li, Mingfeng Xue, Zhenru Zhang, Jiaxi Yang, Beichen Zhang, Xiang Wang, Bowen Yu, Binyuan Hui, Junyang Lin, Dayiheng Liu
cs.AI
Resumen
Los grandes modelos de razonamiento (LRMs, por sus siglas en inglés) como OpenAI-o1 y DeepSeek-R1 han demostrado capacidades notables en tareas de razonamiento complejo mediante el uso de largas cadenas de pensamiento (Chain-of-thought, CoT). Sin embargo, estos modelos a menudo sufren de alucinaciones e ineficiencias debido a su dependencia exclusiva de procesos de razonamiento internos. En este artículo, presentamos START (Self-Taught Reasoner with Tools), un novedoso modelo de lenguaje de razonamiento CoT largo integrado con herramientas que mejora significativamente las capacidades de razonamiento al aprovechar herramientas externas. A través de la ejecución de código, START es capaz de realizar cálculos complejos, auto-verificarse, explorar diversos métodos y auto-depurarse, abordando así las limitaciones de los LRMs. La innovación central de START radica en su marco de autoaprendizaje, que comprende dos técnicas clave: 1) Hint-infer: Demostramos que insertar pistas diseñadas artificialmente (por ejemplo, "Espera, tal vez usar Python aquí sea una buena idea") durante el proceso de inferencia de un LRM estimula efectivamente su capacidad para utilizar herramientas externas sin necesidad de datos de demostración. Hint-infer también puede servir como un método simple y efectivo de escalado secuencial en tiempo de prueba; 2) Hint Rejection Sampling Fine-Tuning (Hint-RFT): Hint-RFT combina Hint-infer y RFT al puntuar, filtrar y modificar las trayectorias de razonamiento con invocación de herramientas generadas por un LRM mediante Hint-infer, seguido de un ajuste fino del LRM. A través de este marco, hemos ajustado el modelo QwQ-32B para lograr START. En preguntas de ciencias de nivel de doctorado (GPQA), benchmarks de matemáticas de nivel de competencia (AMC23, AIME24, AIME25) y el benchmark de código de nivel de competencia (LiveCodeBench), START alcanza tasas de precisión del 63.6%, 95.0%, 66.7%, 47.1% y 47.3%, respectivamente. Supera significativamente al modelo base QwQ-32B y logra un rendimiento comparable al modelo de peso abierto de última generación R1-Distill-Qwen-32B y al modelo propietario o1-Preview.
English
Large reasoning models (LRMs) like OpenAI-o1 and DeepSeek-R1 have
demonstrated remarkable capabilities in complex reasoning tasks through the
utilization of long Chain-of-thought (CoT). However, these models often suffer
from hallucinations and inefficiencies due to their reliance solely on internal
reasoning processes. In this paper, we introduce START (Self-Taught Reasoner
with Tools), a novel tool-integrated long CoT reasoning LLM that significantly
enhances reasoning capabilities by leveraging external tools. Through code
execution, START is capable of performing complex computations, self-checking,
exploring diverse methods, and self-debugging, thereby addressing the
limitations of LRMs. The core innovation of START lies in its self-learning
framework, which comprises two key techniques: 1) Hint-infer: We demonstrate
that inserting artificially designed hints (e.g., ``Wait, maybe using Python
here is a good idea.'') during the inference process of a LRM effectively
stimulates its ability to utilize external tools without the need for any
demonstration data. Hint-infer can also serve as a simple and effective
sequential test-time scaling method; 2) Hint Rejection Sampling Fine-Tuning
(Hint-RFT): Hint-RFT combines Hint-infer and RFT by scoring, filtering, and
modifying the reasoning trajectories with tool invocation generated by a LRM
via Hint-infer, followed by fine-tuning the LRM. Through this framework, we
have fine-tuned the QwQ-32B model to achieve START. On PhD-level science QA
(GPQA), competition-level math benchmarks (AMC23, AIME24, AIME25), and the
competition-level code benchmark (LiveCodeBench), START achieves accuracy rates
of 63.6%, 95.0%, 66.7%, 47.1%, and 47.3%, respectively. It significantly
outperforms the base QwQ-32B and achieves performance comparable to the
state-of-the-art open-weight model R1-Distill-Qwen-32B and the proprietary
model o1-Preview.Summary
AI-Generated Summary