Form des Denkens: Wenn die Verteilung wichtiger ist als die Korrektheit bei Denkaufgaben
Shape of Thought: When Distribution Matters More than Correctness in Reasoning Tasks
December 24, 2025
papers.authors: Abhranil Chandra, Ayush Agrawal, Arian Hosseini, Sebastian Fischmeister, Rishabh Agarwal, Navin Goyal, Aaron Courville
cs.AI
papers.abstract
Wir berichten über die überraschende Erkenntnis, dass die Fähigkeiten eines Sprachmodells zum logischen Schlussfolgern verbessert werden können, indem es mit synthetischen Datensätzen von Chain-of-Thought (CoT)-Abläufen leistungsfähigerer Modelle trainiert wird – selbst wenn all diese Abläufe zu einer falschen Endantwort führen. Unsere Experimente zeigen, dass dieser Ansatz bei Aufgaben zum logischen Denken eine bessere Leistung erzielen kann als ein Training mit von Menschen annotierten Datensätzen. Wir stellen die Hypothese auf, dass zwei Schlüsselfaktoren dieses Phänomen erklären: Erstens liegt die Verteilung der synthetischen Daten inhärent näher an der eigenen Verteilung des Sprachmodells, was das Lernen erleichtert. Zweitens sind diese "falschen" Abläufe oft nur teilweise fehlerhaft und enthalten gültige Denkschritte, von denen das Modell lernen kann. Um die erste Hypothese weiter zu testen, verwenden wir ein Sprachmodell, um von Menschen annotierte Abläufe umzuformulieren – wodurch sich deren Verteilung der des Modells weiter annähert – und zeigen, dass dies die Leistung verbessert. Für die zweite Hypothese führen wir zunehmend fehlerhafte CoT-Abläufe ein und untersuchen, inwieweit Modelle gegenüber diesen Fehlern tolerant sind. Wir demonstrieren unsere Ergebnisse in verschiedenen Domänen des logischen Schließens wie Mathematik, algorithmischem Denken und Code-Generierung anhand der Datensätze MATH, GSM8K, Countdown und MBPP mit verschiedenen Sprachmodellen der Qwen-, Llama- und Gemma-Modelle im Größenbereich von 1,5B bis 9B Parametern. Unsere Studie zeigt, dass die Zusammenstellung von Datensätzen, die näher an der Verteilung des Modells liegen, ein kritischer zu berücksichtigender Aspekt ist. Wir zeigen außerdem, dass eine korrekte Endantwort nicht immer ein verlässlicher Indikator für einen korrekten Denkprozess ist.
English
We present the surprising finding that a language model's reasoning capabilities can be improved by training on synthetic datasets of chain-of-thought (CoT) traces from more capable models, even when all of those traces lead to an incorrect final answer. Our experiments show this approach can yield better performance on reasoning tasks than training on human-annotated datasets. We hypothesize that two key factors explain this phenomenon: first, the distribution of synthetic data is inherently closer to the language model's own distribution, making it more amenable to learning. Second, these `incorrect' traces are often only partially flawed and contain valid reasoning steps from which the model can learn. To further test the first hypothesis, we use a language model to paraphrase human-annotated traces -- shifting their distribution closer to the model's own distribution -- and show that this improves performance. For the second hypothesis, we introduce increasingly flawed CoT traces and study to what extent models are tolerant to these flaws. We demonstrate our findings across various reasoning domains like math, algorithmic reasoning and code generation using MATH, GSM8K, Countdown and MBPP datasets on various language models ranging from 1.5B to 9B across Qwen, Llama, and Gemma models. Our study shows that curating datasets that are closer to the model's distribution is a critical aspect to consider. We also show that a correct final answer is not always a reliable indicator of a faithful reasoning process.