ChatPaper.aiChatPaper

Forme de la pensée : quand la distribution importe plus que la correction dans les tâches de raisonnement

Shape of Thought: When Distribution Matters More than Correctness in Reasoning Tasks

December 24, 2025
papers.authors: Abhranil Chandra, Ayush Agrawal, Arian Hosseini, Sebastian Fischmeister, Rishabh Agarwal, Navin Goyal, Aaron Courville
cs.AI

papers.abstract

Nous présentons la découverte surprenante que les capacités de raisonnement d'un modèle linguistique peuvent être améliorées en l'entraînant sur des ensembles de données synthétiques de traces de raisonnement en chaîne (chain-of-thought, CoT) provenant de modèles plus performants, même lorsque toutes ces traces conduisent à une réponse finale incorrecte. Nos expériences montrent que cette approche peut donner de meilleures performances sur des tâches de raisonnement qu'un entraînement sur des ensembles de données annotées par des humains. Nous émettons l'hypothèse que deux facteurs clés expliquent ce phénomène : premièrement, la distribution des données synthétiques est intrinsèquement plus proche de la distribution propre du modèle linguistique, ce qui les rend plus faciles à apprendre. Deuxièmement, ces traces « incorrectes » ne sont souvent que partiellement erronées et contiennent des étapes de raisonnement valides dont le modèle peut s'inspirer. Pour tester davantage la première hypothèse, nous utilisons un modèle linguistique pour paraphraser des traces annotées par des humains – en rapprochant leur distribution de celle du modèle – et nous montrons que cela améliore les performances. Pour la seconde hypothèse, nous introduisons des traces CoT de plus en plus imparfaites et nous étudions dans quelle mesure les modèles tolèrent ces défauts. Nous démontrons nos résultats dans divers domaines du raisonnement tels que les mathématiques, le raisonnement algorithmique et la génération de code en utilisant les ensembles de données MATH, GSM8K, Countdown et MBPP sur différents modèles linguistiques, allant de 1,5B à 9B paramètres, incluant les modèles Qwen, Llama et Gemma. Notre étude montre que la curation d'ensembles de données plus proches de la distribution du modèle est un aspect crucial à prendre en compte. Nous montrons également qu'une réponse finale correcte n'est pas toujours un indicateur fiable d'un processus de raisonnement fidèle.
English
We present the surprising finding that a language model's reasoning capabilities can be improved by training on synthetic datasets of chain-of-thought (CoT) traces from more capable models, even when all of those traces lead to an incorrect final answer. Our experiments show this approach can yield better performance on reasoning tasks than training on human-annotated datasets. We hypothesize that two key factors explain this phenomenon: first, the distribution of synthetic data is inherently closer to the language model's own distribution, making it more amenable to learning. Second, these `incorrect' traces are often only partially flawed and contain valid reasoning steps from which the model can learn. To further test the first hypothesis, we use a language model to paraphrase human-annotated traces -- shifting their distribution closer to the model's own distribution -- and show that this improves performance. For the second hypothesis, we introduce increasingly flawed CoT traces and study to what extent models are tolerant to these flaws. We demonstrate our findings across various reasoning domains like math, algorithmic reasoning and code generation using MATH, GSM8K, Countdown and MBPP datasets on various language models ranging from 1.5B to 9B across Qwen, Llama, and Gemma models. Our study shows that curating datasets that are closer to the model's distribution is a critical aspect to consider. We also show that a correct final answer is not always a reliable indicator of a faithful reasoning process.
PDF11December 31, 2025