Mise à l'échelle des chaînes de pensées et instructions assistées par code pour le raisonnement des modèles
Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning
October 5, 2025
papers.authors: Honglin Lin, Qizhi Pei, Xin Gao, Zhuoshi Pan, Yu Li, Juntao Li, Conghui He, Lijun Wu
cs.AI
papers.abstract
La capacité de raisonnement est cruciale pour les modèles de langage à grande échelle (LLMs) afin de résoudre des tâches complexes, mais atteindre un raisonnement fiable et évolutif reste un défi. Bien que l'incitation par chaîne de pensée (Chain-of-Thought, CoT) soit devenue une approche dominante, les méthodes existantes souffrent souvent de génération non contrôlée, d'une qualité insuffisante et d'une diversité limitée dans les chemins de raisonnement. Des efforts récents exploitent le code pour améliorer la CoT en ancrant le raisonnement dans des étapes exécutables, mais ces méthodes sont généralement limitées à des problèmes mathématiques prédéfinis, entravant ainsi leur évolutivité et leur généralisation. Dans ce travail, nous proposons Caco (Code-Assisted Chain-of-ThOught), un cadre novateur qui automatise la synthèse de données de raisonnement instruction-CoT de haute qualité, vérifiables et diversifiées grâce à une augmentation pilotée par le code. Contrairement aux travaux précédents, Caco affine d'abord un générateur de CoT basé sur le code à partir de solutions mathématiques et de programmation existantes dans un format de code unifié, puis étend la génération de données à un grand nombre de traces de raisonnement diversifiées. De manière cruciale, nous introduisons une validation automatisée via l'exécution de code et un filtrage basé sur des règles pour garantir la correction logique et la diversité structurelle, suivie d'une rétro-ingénierie des sorties filtrées en instructions en langage naturel et en CoT linguistiques pour enrichir l'adaptabilité des tâches. Ce processus en boucle fermée permet une synthèse entièrement automatisée et évolutive de données de raisonnement avec une exécutabilité garantie. Les expériences sur notre ensemble de données Caco-1.3M montrent que les modèles entraînés avec Caco atteignent des performances compétitives solides sur des benchmarks de raisonnement mathématique, surpassant les bases de référence existantes. Une analyse approfondie révèle que la vérification ancrée dans le code et la diversité des instructions de Caco contribuent à une généralisation supérieure sur des tâches inédites. Notre travail établit un paradigme pour la construction de systèmes de raisonnement autonomes et fiables sans intervention humaine.
English
Reasoning capability is pivotal for Large Language Models (LLMs) to solve
complex tasks, yet achieving reliable and scalable reasoning remains
challenging. While Chain-of-Thought (CoT) prompting has become a mainstream
approach, existing methods often suffer from uncontrolled generation,
insufficient quality, and limited diversity in reasoning paths. Recent efforts
leverage code to enhance CoT by grounding reasoning in executable steps, but
such methods are typically constrained to predefined mathematical problems,
hindering scalability and generalizability. In this work, we propose Caco
(Code-Assisted Chain-of-ThOught), a novel framework that automates the
synthesis of high-quality, verifiable, and diverse instruction-CoT reasoning
data through code-driven augmentation. Unlike prior work, Caco first fine-tunes
a code-based CoT generator on existing math and programming solutions in a
unified code format, then scales the data generation to a large amount of
diverse reasoning traces. Crucially, we introduce automated validation via code
execution and rule-based filtering to ensure logical correctness and structural
diversity, followed by reverse-engineering filtered outputs into natural
language instructions and language CoTs to enrich task adaptability. This
closed-loop process enables fully automated, scalable synthesis of reasoning
data with guaranteed executability. Experiments on our created Caco-1.3M
dataset demonstrate that Caco-trained models achieve strong competitive
performance on mathematical reasoning benchmarks, outperforming existing strong
baselines. Further analysis reveals that Caco's code-anchored verification and
instruction diversity contribute to superior generalization across unseen
tasks. Our work establishes a paradigm for building self-sustaining,
trustworthy reasoning systems without human intervention.