思考の形:推論タスクにおいて正しさより分布が重要となる場合
Shape of Thought: When Distribution Matters More than Correctness in Reasoning Tasks
December 24, 2025
著者: Abhranil Chandra, Ayush Agrawal, Arian Hosseini, Sebastian Fischmeister, Rishabh Agarwal, Navin Goyal, Aaron Courville
cs.AI
要旨
我々は、より能力の高いモデルから得られた思考連鎖(CoT)の合成データセットで学習させることで、言語モデルの推論能力が向上するという驚くべき発見を報告する。これは、それらの思考連鎖の全てが最終的に誤った答えに至る場合であっても成り立つ。本実験により、この手法が推論タスクにおいて人間による注釈付きデータセットでの学習よりも優れた性能を発揮し得ることが示された。我々は、この現象を説明する二つの主要因を仮説として提示する。第一に、合成データの分布は本質的に言語モデル自身の分布に近く、学習がより容易である点。第二に、これらの「誤った」思考連鎖はしばしば部分的にしか欠陥がなく、モデルが学ぶべき有効な推論ステップを含んでいる点である。第一の仮説をさらに検証するため、人間による注釈付き思考連鎖を言語モデルで言い換え(その分布をモデル自身の分布に近づけ)、これが性能向上に寄与することを示す。第二の仮説については、欠陥を段階的に増やしたCoTトレースを導入し、モデルがこれらの欠陥をどこまで許容するかを検証する。我々は、数学、アルゴリズム推論、コード生成といった様々な推論領域において、MATH、GSM8K、Countdown、MBPPデータセットを用い、Qwen、Llama、Gemmaモデル群から1.5Bから9Bパラメータ規模の様々な言語モデルでこれらの知見を実証する。本研究は、モデルの分布に近いデータセットを構築することが極めて重要であることを示すとともに、最終答えの正しさが常に忠実な推論過程の信頼できる指標とはならないことも明らかにする。
English
We present the surprising finding that a language model's reasoning capabilities can be improved by training on synthetic datasets of chain-of-thought (CoT) traces from more capable models, even when all of those traces lead to an incorrect final answer. Our experiments show this approach can yield better performance on reasoning tasks than training on human-annotated datasets. We hypothesize that two key factors explain this phenomenon: first, the distribution of synthetic data is inherently closer to the language model's own distribution, making it more amenable to learning. Second, these `incorrect' traces are often only partially flawed and contain valid reasoning steps from which the model can learn. To further test the first hypothesis, we use a language model to paraphrase human-annotated traces -- shifting their distribution closer to the model's own distribution -- and show that this improves performance. For the second hypothesis, we introduce increasingly flawed CoT traces and study to what extent models are tolerant to these flaws. We demonstrate our findings across various reasoning domains like math, algorithmic reasoning and code generation using MATH, GSM8K, Countdown and MBPP datasets on various language models ranging from 1.5B to 9B across Qwen, Llama, and Gemma models. Our study shows that curating datasets that are closer to the model's distribution is a critical aspect to consider. We also show that a correct final answer is not always a reliable indicator of a faithful reasoning process.