Форма мысли: когда распределение важнее правильности в задачах логического вывода
Shape of Thought: When Distribution Matters More than Correctness in Reasoning Tasks
December 24, 2025
Авторы: Abhranil Chandra, Ayush Agrawal, Arian Hosseini, Sebastian Fischmeister, Rishabh Agarwal, Navin Goyal, Aaron Courville
cs.AI
Аннотация
Мы представляем неожиданный вывод: способности языковой модели к рассуждению можно улучшить, обучая ее на синтетических наборах данных с цепочками мыслей (CoT) от более мощных моделей, даже когда все эти цепочки приводят к неверному окончательному ответу. Наши эксперименты показывают, что такой подход может обеспечить лучшие результаты в задачах на рассуждения по сравнению с обучением на аннотированных человеком наборах данных. Мы выдвигаем гипотезу, что это явление объясняется двумя ключевыми факторами: во-первых, распределение синтетических данных по своей природе ближе к собственному распределению языковой модели, что облегчает их усвоение. Во-вторых, эти «некорректные» цепочки часто лишь частично ошибочны и содержат валидные шаги рассуждений, из которых модель может извлечь пользу. Для дальнейшей проверки первой гипотезы мы используем языковую модель для парафраза аннотированных человеком цепочек — смещая их распределение ближе к собственному распределению модели — и показываем, что это улучшает результаты. Для второй гипотезы мы вводим цепочки CoT с нарастающим уровнем ошибок и исследуем, в какой степени модели толерантны к этим недостаткам. Мы демонстрируем наши выводы в различных областях рассуждений, таких как математика, алгоритмические задачи и генерация кода, используя наборы данных MATH, GSM8K, Countdown и MBPP на различных языковых моделях (от 1.5B до 9B параметров) из семейств Qwen, Llama и Gemma. Наше исследование показывает, что курирование наборов данных, более близких к распределению модели, является критически важным аспектом. Мы также демонстрируем, что корректный окончательный ответ не всегда является надежным индикатором достоверного процесса рассуждений.
English
We present the surprising finding that a language model's reasoning capabilities can be improved by training on synthetic datasets of chain-of-thought (CoT) traces from more capable models, even when all of those traces lead to an incorrect final answer. Our experiments show this approach can yield better performance on reasoning tasks than training on human-annotated datasets. We hypothesize that two key factors explain this phenomenon: first, the distribution of synthetic data is inherently closer to the language model's own distribution, making it more amenable to learning. Second, these `incorrect' traces are often only partially flawed and contain valid reasoning steps from which the model can learn. To further test the first hypothesis, we use a language model to paraphrase human-annotated traces -- shifting their distribution closer to the model's own distribution -- and show that this improves performance. For the second hypothesis, we introduce increasingly flawed CoT traces and study to what extent models are tolerant to these flaws. We demonstrate our findings across various reasoning domains like math, algorithmic reasoning and code generation using MATH, GSM8K, Countdown and MBPP datasets on various language models ranging from 1.5B to 9B across Qwen, Llama, and Gemma models. Our study shows that curating datasets that are closer to the model's distribution is a critical aspect to consider. We also show that a correct final answer is not always a reliable indicator of a faithful reasoning process.