ChatPaper.aiChatPaper

Vorm van Denken: Wanneer Verdeling Belangrijker is dan Correctheid bij Redeneertaken

Shape of Thought: When Distribution Matters More than Correctness in Reasoning Tasks

December 24, 2025
Auteurs: Abhranil Chandra, Ayush Agrawal, Arian Hosseini, Sebastian Fischmeister, Rishabh Agarwal, Navin Goyal, Aaron Courville
cs.AI

Samenvatting

Wij presenteren de verrassende bevinding dat de redeneervaardigheden van een taalmodel kunnen worden verbeterd door training op synthetische datasets van chain-of-thought (CoT)-sporen afkomstig van krachtigere modellen, zelfs wanneer al die sporen leiden tot een incorrect eindantwoord. Onze experimenten tonen aan dat deze aanpak betere prestaties kan opleveren bij redeneertaken dan training op door mensen geannoteerde datasets. Wij veronderstellen dat twee sleutelfactoren dit fenomeen verklaren: ten eerste ligt de distributie van synthetische data inherent dichter bij de eigen distributie van het taalmodel, wat het leren ervan vergemakkelijkt. Ten tweede zijn deze 'incorrecte' sporen vaak slechts gedeeltelijk flawed en bevatten ze geldige redeneerstappen waarvan het model kan leren. Om de eerste hypothese verder te testen, gebruiken we een taalmodel om door mensen geannoteerde sporen te parafraseren – waardoor hun distributie verschuift naar die van het model zelf – en tonen we aan dat dit de prestaties verbetert. Voor de tweede hypothese introduceren we toenemend flawed CoT-sporen en bestuderen we in hoeverre modellen tolerant zijn voor deze fouten. Wij demonstreren onze bevindingen in diverse redeneerdomeinen zoals wiskunde, algoritmisch redeneren en codegeneratie met behulp van de datasets MATH, GSM8K, Countdown en MBPP op verschillende taalmodellen, variërend van 1,5B tot 9B parameters, waaronder Qwen-, Llama- en Gemma-modellen. Onze studie toont aan dat het samenstellen van datasets die dichter bij de distributie van het model liggen, een cruciaal aspect is om te overwegen. Wij tonen ook aan dat een correct eindantwoord niet altijd een betrouwbare indicator is voor een correct redeneerproces.
English
We present the surprising finding that a language model's reasoning capabilities can be improved by training on synthetic datasets of chain-of-thought (CoT) traces from more capable models, even when all of those traces lead to an incorrect final answer. Our experiments show this approach can yield better performance on reasoning tasks than training on human-annotated datasets. We hypothesize that two key factors explain this phenomenon: first, the distribution of synthetic data is inherently closer to the language model's own distribution, making it more amenable to learning. Second, these `incorrect' traces are often only partially flawed and contain valid reasoning steps from which the model can learn. To further test the first hypothesis, we use a language model to paraphrase human-annotated traces -- shifting their distribution closer to the model's own distribution -- and show that this improves performance. For the second hypothesis, we introduce increasingly flawed CoT traces and study to what extent models are tolerant to these flaws. We demonstrate our findings across various reasoning domains like math, algorithmic reasoning and code generation using MATH, GSM8K, Countdown and MBPP datasets on various language models ranging from 1.5B to 9B across Qwen, Llama, and Gemma models. Our study shows that curating datasets that are closer to the model's distribution is a critical aspect to consider. We also show that a correct final answer is not always a reliable indicator of a faithful reasoning process.
PDF11December 31, 2025