Escalando Cadenas de Pensamiento y Instrucciones Asistidas por Código para el Razonamiento del Modelo
Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning
October 5, 2025
Autores: Honglin Lin, Qizhi Pei, Xin Gao, Zhuoshi Pan, Yu Li, Juntao Li, Conghui He, Lijun Wu
cs.AI
Resumen
La capacidad de razonamiento es fundamental para que los Modelos de Lenguaje de Gran Escala (LLMs) resuelvan tareas complejas, sin embargo, lograr un razonamiento confiable y escalable sigue siendo un desafío. Si bien el enfoque de Cadena de Pensamiento (Chain-of-Thought, CoT) se ha convertido en un método predominante, los enfoques existentes suelen adolecer de generación descontrolada, calidad insuficiente y diversidad limitada en las rutas de razonamiento. Esfuerzos recientes aprovechan el código para mejorar CoT al fundamentar el razonamiento en pasos ejecutables, pero estos métodos suelen estar restringidos a problemas matemáticos predefinidos, lo que limita su escalabilidad y generalización. En este trabajo, proponemos Caco (Code-Assisted Chain-of-ThOught), un marco novedoso que automatiza la síntesis de datos de razonamiento instrucción-CoT de alta calidad, verificables y diversos mediante aumentación basada en código. A diferencia de trabajos previos, Caco primero ajusta un generador de CoT basado en código sobre soluciones matemáticas y de programación en un formato de código unificado, luego escala la generación de datos a una gran cantidad de trazas de razonamiento diversas. De manera crucial, introducimos validación automatizada mediante ejecución de código y filtrado basado en reglas para garantizar corrección lógica y diversidad estructural, seguido de la ingeniería inversa de las salidas filtradas en instrucciones de lenguaje natural y CoTs lingüísticos para enriquecer la adaptabilidad a tareas. Este proceso de ciclo cerrado permite la síntesis completamente automatizada y escalable de datos de razonamiento con ejecutabilidad garantizada. Experimentos en nuestro conjunto de datos Caco-1.3M demuestran que los modelos entrenados con Caco logran un rendimiento competitivo en benchmarks de razonamiento matemático, superando a las líneas base sólidas existentes. Un análisis adicional revela que la verificación anclada en código y la diversidad de instrucciones de Caco contribuyen a una generalización superior en tareas no vistas. Nuestro trabajo establece un paradigma para construir sistemas de razonamiento autosostenibles y confiables sin intervención humana.
English
Reasoning capability is pivotal for Large Language Models (LLMs) to solve
complex tasks, yet achieving reliable and scalable reasoning remains
challenging. While Chain-of-Thought (CoT) prompting has become a mainstream
approach, existing methods often suffer from uncontrolled generation,
insufficient quality, and limited diversity in reasoning paths. Recent efforts
leverage code to enhance CoT by grounding reasoning in executable steps, but
such methods are typically constrained to predefined mathematical problems,
hindering scalability and generalizability. In this work, we propose Caco
(Code-Assisted Chain-of-ThOught), a novel framework that automates the
synthesis of high-quality, verifiable, and diverse instruction-CoT reasoning
data through code-driven augmentation. Unlike prior work, Caco first fine-tunes
a code-based CoT generator on existing math and programming solutions in a
unified code format, then scales the data generation to a large amount of
diverse reasoning traces. Crucially, we introduce automated validation via code
execution and rule-based filtering to ensure logical correctness and structural
diversity, followed by reverse-engineering filtered outputs into natural
language instructions and language CoTs to enrich task adaptability. This
closed-loop process enables fully automated, scalable synthesis of reasoning
data with guaranteed executability. Experiments on our created Caco-1.3M
dataset demonstrate that Caco-trained models achieve strong competitive
performance on mathematical reasoning benchmarks, outperforming existing strong
baselines. Further analysis reveals that Caco's code-anchored verification and
instruction diversity contribute to superior generalization across unseen
tasks. Our work establishes a paradigm for building self-sustaining,
trustworthy reasoning systems without human intervention.