ChatPaper.aiChatPaper

START: Razonador Autodidacta con Herramientas

START: Self-taught Reasoner with Tools

March 6, 2025
Autores: Chengpeng Li, Mingfeng Xue, Zhenru Zhang, Jiaxi Yang, Beichen Zhang, Xiang Wang, Bowen Yu, Binyuan Hui, Junyang Lin, Dayiheng Liu
cs.AI

Resumen

Los grandes modelos de razonamiento (LRMs, por sus siglas en inglés) como OpenAI-o1 y DeepSeek-R1 han demostrado capacidades notables en tareas de razonamiento complejo mediante el uso de largas cadenas de pensamiento (Chain-of-thought, CoT). Sin embargo, estos modelos a menudo sufren de alucinaciones e ineficiencias debido a su dependencia exclusiva de procesos de razonamiento internos. En este artículo, presentamos START (Self-Taught Reasoner with Tools), un novedoso modelo de lenguaje de razonamiento CoT largo integrado con herramientas que mejora significativamente las capacidades de razonamiento al aprovechar herramientas externas. A través de la ejecución de código, START es capaz de realizar cálculos complejos, auto-verificarse, explorar diversos métodos y auto-depurarse, abordando así las limitaciones de los LRMs. La innovación central de START radica en su marco de autoaprendizaje, que comprende dos técnicas clave: 1) Hint-infer: Demostramos que insertar pistas diseñadas artificialmente (por ejemplo, "Espera, tal vez usar Python aquí sea una buena idea") durante el proceso de inferencia de un LRM estimula efectivamente su capacidad para utilizar herramientas externas sin necesidad de datos de demostración. Hint-infer también puede servir como un método simple y efectivo de escalado secuencial en tiempo de prueba; 2) Hint Rejection Sampling Fine-Tuning (Hint-RFT): Hint-RFT combina Hint-infer y RFT al puntuar, filtrar y modificar las trayectorias de razonamiento con invocación de herramientas generadas por un LRM mediante Hint-infer, seguido de un ajuste fino del LRM. A través de este marco, hemos ajustado el modelo QwQ-32B para lograr START. En preguntas de ciencias de nivel de doctorado (GPQA), benchmarks de matemáticas de nivel de competencia (AMC23, AIME24, AIME25) y el benchmark de código de nivel de competencia (LiveCodeBench), START alcanza tasas de precisión del 63.6%, 95.0%, 66.7%, 47.1% y 47.3%, respectivamente. Supera significativamente al modelo base QwQ-32B y logra un rendimiento comparable al modelo de peso abierto de última generación R1-Distill-Qwen-32B y al modelo propietario o1-Preview.
English
Large reasoning models (LRMs) like OpenAI-o1 and DeepSeek-R1 have demonstrated remarkable capabilities in complex reasoning tasks through the utilization of long Chain-of-thought (CoT). However, these models often suffer from hallucinations and inefficiencies due to their reliance solely on internal reasoning processes. In this paper, we introduce START (Self-Taught Reasoner with Tools), a novel tool-integrated long CoT reasoning LLM that significantly enhances reasoning capabilities by leveraging external tools. Through code execution, START is capable of performing complex computations, self-checking, exploring diverse methods, and self-debugging, thereby addressing the limitations of LRMs. The core innovation of START lies in its self-learning framework, which comprises two key techniques: 1) Hint-infer: We demonstrate that inserting artificially designed hints (e.g., ``Wait, maybe using Python here is a good idea.'') during the inference process of a LRM effectively stimulates its ability to utilize external tools without the need for any demonstration data. Hint-infer can also serve as a simple and effective sequential test-time scaling method; 2) Hint Rejection Sampling Fine-Tuning (Hint-RFT): Hint-RFT combines Hint-infer and RFT by scoring, filtering, and modifying the reasoning trajectories with tool invocation generated by a LRM via Hint-infer, followed by fine-tuning the LRM. Through this framework, we have fine-tuned the QwQ-32B model to achieve START. On PhD-level science QA (GPQA), competition-level math benchmarks (AMC23, AIME24, AIME25), and the competition-level code benchmark (LiveCodeBench), START achieves accuracy rates of 63.6%, 95.0%, 66.7%, 47.1%, and 47.3%, respectively. It significantly outperforms the base QwQ-32B and achieves performance comparable to the state-of-the-art open-weight model R1-Distill-Qwen-32B and the proprietary model o1-Preview.

Summary

AI-Generated Summary

PDF1116March 7, 2025