Skalierung von Code-unterstützten Ketten von Gedanken und Anweisungen für Modellschlussfolgerungen
Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning
October 5, 2025
papers.authors: Honglin Lin, Qizhi Pei, Xin Gao, Zhuoshi Pan, Yu Li, Juntao Li, Conghui He, Lijun Wu
cs.AI
papers.abstract
Die Fähigkeit zum logischen Denken ist entscheidend für Large Language Models (LLMs), um komplexe Aufgaben zu lösen, doch die Realisierung zuverlässiger und skalierbarer Denkprozesse bleibt eine Herausforderung. Während Chain-of-Thought (CoT) Prompting zu einem weit verbreiteten Ansatz geworden ist, leiden bestehende Methoden oft unter unkontrollierter Generierung, unzureichender Qualität und begrenzter Vielfalt in den Denkpfaden. Jüngste Bemühungen nutzen Code, um CoT durch die Verankerung von Denkprozessen in ausführbaren Schritten zu verbessern, doch solche Methoden sind typischerweise auf vordefinierte mathematische Probleme beschränkt, was Skalierbarkeit und Generalisierbarkeit behindert. In dieser Arbeit schlagen wir Caco (Code-Assisted Chain-of-ThOught) vor, ein neuartiges Framework, das die Synthese von hochwertigen, überprüfbaren und vielfältigen Instruction-CoT-Denkdaten durch code-gestützte Augmentierung automatisiert. Im Gegensatz zu früheren Arbeiten trainiert Caco zunächst einen code-basierten CoT-Generator auf bestehenden mathematischen und programmierspezifischen Lösungen in einem einheitlichen Code-Format und skaliert dann die Datengenerierung auf eine große Menge diverser Denkpfade. Entscheidend ist, dass wir eine automatisierte Validierung durch Code-Ausführung und regelbasierte Filterung einführen, um logische Korrektheit und strukturelle Vielfalt sicherzustellen, gefolgt von der Rückübersetzung gefilterter Ausgaben in natürliche Sprachinstruktionen und Sprach-CoTs, um die Aufgabenanpassungsfähigkeit zu bereichern. Dieser geschlossene Prozess ermöglicht eine vollständig automatisierte, skalierbare Synthese von Denkdaten mit garantierter Ausführbarkeit. Experimente auf unserem erstellten Caco-1.3M-Datensatz zeigen, dass mit Caco trainierte Modelle eine starke Wettbewerbsfähigkeit auf mathematischen Denkbenchmarks erreichen und bestehende starke Baselines übertreffen. Weitere Analysen zeigen, dass die code-gestützte Verifikation und die Instruktionsvielfalt von Caco zu einer überlegenen Generalisierung über unbekannte Aufgaben beitragen. Unsere Arbeit etabliert ein Paradigma für den Aufbau selbsttragender, vertrauenswürdiger Denksysteme ohne menschliches Eingreifen.
English
Reasoning capability is pivotal for Large Language Models (LLMs) to solve
complex tasks, yet achieving reliable and scalable reasoning remains
challenging. While Chain-of-Thought (CoT) prompting has become a mainstream
approach, existing methods often suffer from uncontrolled generation,
insufficient quality, and limited diversity in reasoning paths. Recent efforts
leverage code to enhance CoT by grounding reasoning in executable steps, but
such methods are typically constrained to predefined mathematical problems,
hindering scalability and generalizability. In this work, we propose Caco
(Code-Assisted Chain-of-ThOught), a novel framework that automates the
synthesis of high-quality, verifiable, and diverse instruction-CoT reasoning
data through code-driven augmentation. Unlike prior work, Caco first fine-tunes
a code-based CoT generator on existing math and programming solutions in a
unified code format, then scales the data generation to a large amount of
diverse reasoning traces. Crucially, we introduce automated validation via code
execution and rule-based filtering to ensure logical correctness and structural
diversity, followed by reverse-engineering filtered outputs into natural
language instructions and language CoTs to enrich task adaptability. This
closed-loop process enables fully automated, scalable synthesis of reasoning
data with guaranteed executability. Experiments on our created Caco-1.3M
dataset demonstrate that Caco-trained models achieve strong competitive
performance on mathematical reasoning benchmarks, outperforming existing strong
baselines. Further analysis reveals that Caco's code-anchored verification and
instruction diversity contribute to superior generalization across unseen
tasks. Our work establishes a paradigm for building self-sustaining,
trustworthy reasoning systems without human intervention.