START: Razonador Autodidacta con HerramientasSTART: Self-taught Reasoner with Tools
Los grandes modelos de razonamiento (LRMs, por sus siglas en inglés) como OpenAI-o1 y DeepSeek-R1 han demostrado capacidades notables en tareas de razonamiento complejo mediante el uso de largas cadenas de pensamiento (Chain-of-thought, CoT). Sin embargo, estos modelos a menudo sufren de alucinaciones e ineficiencias debido a su dependencia exclusiva de procesos de razonamiento internos. En este artículo, presentamos START (Self-Taught Reasoner with Tools), un novedoso modelo de lenguaje de razonamiento CoT largo integrado con herramientas que mejora significativamente las capacidades de razonamiento al aprovechar herramientas externas. A través de la ejecución de código, START es capaz de realizar cálculos complejos, auto-verificarse, explorar diversos métodos y auto-depurarse, abordando así las limitaciones de los LRMs. La innovación central de START radica en su marco de autoaprendizaje, que comprende dos técnicas clave: 1) Hint-infer: Demostramos que insertar pistas diseñadas artificialmente (por ejemplo, "Espera, tal vez usar Python aquí sea una buena idea") durante el proceso de inferencia de un LRM estimula efectivamente su capacidad para utilizar herramientas externas sin necesidad de datos de demostración. Hint-infer también puede servir como un método simple y efectivo de escalado secuencial en tiempo de prueba; 2) Hint Rejection Sampling Fine-Tuning (Hint-RFT): Hint-RFT combina Hint-infer y RFT al puntuar, filtrar y modificar las trayectorias de razonamiento con invocación de herramientas generadas por un LRM mediante Hint-infer, seguido de un ajuste fino del LRM. A través de este marco, hemos ajustado el modelo QwQ-32B para lograr START. En preguntas de ciencias de nivel de doctorado (GPQA), benchmarks de matemáticas de nivel de competencia (AMC23, AIME24, AIME25) y el benchmark de código de nivel de competencia (LiveCodeBench), START alcanza tasas de precisión del 63.6%, 95.0%, 66.7%, 47.1% y 47.3%, respectivamente. Supera significativamente al modelo base QwQ-32B y logra un rendimiento comparable al modelo de peso abierto de última generación R1-Distill-Qwen-32B y al modelo propietario o1-Preview.