ChatPaper.aiChatPaper

생각의 형태: 추론 과제에서 정확성보다 분포가 중요한 순간

Shape of Thought: When Distribution Matters More than Correctness in Reasoning Tasks

December 24, 2025
저자: Abhranil Chandra, Ayush Agrawal, Arian Hosseini, Sebastian Fischmeister, Rishabh Agarwal, Navin Goyal, Aaron Courville
cs.AI

초록

우리는 언어 모델의 추론 능력이 최종 답변이 틀린 경우에도, 더 우수한 모델에서 생성된 연쇄적 사고(CoT) 추적의 합성 데이터셋으로 학습함으로써 향상될 수 있다는 놀라운 발견을 제시한다. 우리의 실험 결과에 따르면, 이 접근법은 인간이 주석을 단 데이터셋으로 학습하는 것보다 추론 과제에서 더 나은 성능을 낼 수 있다. 우리는 이 현상을 설명하는 두 가지 핵심 요인이 있다고 가정한다. 첫째, 합성 데이터의 분포는 본질적으로 언어 모델 자체의 분포에 더 가까워 학습에 더 용이하다. 둘째, 이러한 '틀린' 추적은 종종 부분적으로만 결함이 있으며 모델이 학습할 수 있는 유효한 추론 단계를 포함한다. 첫 번째 가설을 추가로 검증하기 위해 언어 모델을 사용하여 인간이 주석을 단 추적을 패러프레이징하여(그 분포를 모델 자체의 분포에 더 가깝게 이동시켜) 이 방법이 성능을 향상시킴을 보여준다. 두 번째 가설에 대해서는 점점 더 결함이 있는 CoT 추적을 도입하고 모델이 이러한 결함을 어느 정도까지 허용하는지 연구한다. 우리는 MATH, GSM8K, Countdown, MBPP 데이터셋을 사용하여 수학, 알고리즘 추론, 코드 생성과 같은 다양한 추론 영역과 Qwen, Llama, Gemma 모델군의 15B에서 90B에 이르는 다양한 언어 모델에서 우리의 발견을 입증한다. 우리의 연구는 모델의 분포에 더 가까운 데이터셋을 구성하는 것이 고려해야 할 중요한 측면임을 보여준다. 또한 정확한 최종 답변이 항상 신뢰할 수 있는 추론 과정의 지표가 되는 것은 아님을 보여준다.
English
We present the surprising finding that a language model's reasoning capabilities can be improved by training on synthetic datasets of chain-of-thought (CoT) traces from more capable models, even when all of those traces lead to an incorrect final answer. Our experiments show this approach can yield better performance on reasoning tasks than training on human-annotated datasets. We hypothesize that two key factors explain this phenomenon: first, the distribution of synthetic data is inherently closer to the language model's own distribution, making it more amenable to learning. Second, these `incorrect' traces are often only partially flawed and contain valid reasoning steps from which the model can learn. To further test the first hypothesis, we use a language model to paraphrase human-annotated traces -- shifting their distribution closer to the model's own distribution -- and show that this improves performance. For the second hypothesis, we introduce increasingly flawed CoT traces and study to what extent models are tolerant to these flaws. We demonstrate our findings across various reasoning domains like math, algorithmic reasoning and code generation using MATH, GSM8K, Countdown and MBPP datasets on various language models ranging from 1.5B to 9B across Qwen, Llama, and Gemma models. Our study shows that curating datasets that are closer to the model's distribution is a critical aspect to consider. We also show that a correct final answer is not always a reliable indicator of a faithful reasoning process.
PDF11December 31, 2025