Масштабирование цепочек рассуждений и инструкций с использованием кода для улучшения логического мышления моделей

Аннотация

Способность к рассуждению является ключевой для больших языковых моделей (LLM) при решении сложных задач, однако достижение надежного и масштабируемого рассуждения остается сложной задачей. Хотя метод Chain-of-Thought (CoT) стал основным подходом, существующие методы часто страдают от неконтролируемой генерации, недостаточного качества и ограниченного разнообразия путей рассуждения. Недавние исследования используют код для улучшения CoT, основывая рассуждения на исполняемых шагах, но такие методы обычно ограничены предопределенными математическими задачами, что препятствует масштабируемости и обобщаемости. В данной работе мы предлагаем Caco (Code-Assisted Chain-of-ThOught), новый фреймворк, который автоматизирует синтез высококачественных, проверяемых и разнообразных данных для рассуждений на основе инструкций и CoT с помощью кодовой аугментации. В отличие от предыдущих работ, Caco сначала дообучает генератор CoT на основе кода на существующих математических и программных решениях в унифицированном формате кода, затем масштабирует генерацию данных до большого количества разнообразных траекторий рассуждений. Ключевым моментом является введение автоматической проверки через исполнение кода и фильтрацию на основе правил для обеспечения логической корректности и структурного разнообразия, после чего отфильтрованные результаты преобразуются обратно в инструкции на естественном языке и языковые CoT для повышения адаптивности задач. Этот замкнутый процесс позволяет полностью автоматизировать и масштабировать синтез данных для рассуждений с гарантированной исполняемостью. Эксперименты на созданном наборе данных Caco-1.3M демонстрируют, что модели, обученные с использованием Caco, достигают высокой конкурентоспособной производительности на бенчмарках математических рассуждений, превосходя существующие сильные базовые методы. Дополнительный анализ показывает, что кодовая проверка и разнообразие инструкций в Caco способствуют лучшей обобщаемости на невидимых задачах. Наша работа устанавливает парадигму для создания самоподдерживающихся и надежных систем рассуждений без вмешательства человека.

English

Reasoning capability is pivotal for Large Language Models (LLMs) to solve complex tasks, yet achieving reliable and scalable reasoning remains challenging. While Chain-of-Thought (CoT) prompting has become a mainstream approach, existing methods often suffer from uncontrolled generation, insufficient quality, and limited diversity in reasoning paths. Recent efforts leverage code to enhance CoT by grounding reasoning in executable steps, but such methods are typically constrained to predefined mathematical problems, hindering scalability and generalizability. In this work, we propose Caco (Code-Assisted Chain-of-ThOught), a novel framework that automates the synthesis of high-quality, verifiable, and diverse instruction-CoT reasoning data through code-driven augmentation. Unlike prior work, Caco first fine-tunes a code-based CoT generator on existing math and programming solutions in a unified code format, then scales the data generation to a large amount of diverse reasoning traces. Crucially, we introduce automated validation via code execution and rule-based filtering to ensure logical correctness and structural diversity, followed by reverse-engineering filtered outputs into natural language instructions and language CoTs to enrich task adaptability. This closed-loop process enables fully automated, scalable synthesis of reasoning data with guaranteed executability. Experiments on our created Caco-1.3M dataset demonstrate that Caco-trained models achieve strong competitive performance on mathematical reasoning benchmarks, outperforming existing strong baselines. Further analysis reveals that Caco's code-anchored verification and instruction diversity contribute to superior generalization across unseen tasks. Our work establishes a paradigm for building self-sustaining, trustworthy reasoning systems without human intervention.

Масштабирование цепочек рассуждений и инструкций с использованием кода для улучшения логического мышления моделей

Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning

Аннотация

Support