Forma del Pensiero: Quando la Distribuzione Conta Più della Correttezza nei Compiti di Ragionamento

Abstract

Presentiamo la sorprendente scoperta che le capacità di ragionamento di un modello linguistico possano essere migliorate addestrandolo su dataset sintetici di tracce di ragionamento a catena (chain-of-thought, CoT) provenienti da modelli più capaci, anche quando tutte queste tracce portano a una risposta finale errata. I nostri esperimenti dimostrano che questo approccio può produrre prestazioni migliori sui compiti di ragionamento rispetto all'addestramento su dataset annotati da esseri umani. Ipotesizziamo che due fattori chiave spieghino questo fenomeno: in primo luogo, la distribuzione dei dati sintetici è intrinsecamente più vicina alla distribuzione del modello linguistico stesso, rendendoli più adatti all'apprendimento. In secondo luogo, queste tracce "errate" sono spesso solo parzialmente imperfette e contengono passaggi di ragionamento validi dai quali il modello può apprendere. Per testare ulteriormente la prima ipotesi, utilizziamo un modello linguistico per parafrasare le tracce annotate da esseri umani – spostandone la distribuzione più vicino a quella del modello stesso – e dimostriamo che ciò migliora le prestazioni. Per la seconda ipotesi, introduciamo tracce CoT progressivamente più imperfette e studiamo fino a che punto i modelli sono tolleranti a questi errori. Dimostriamo le nostre scoperte in vari domini di ragionamento come la matematica, il ragionamento algoritmico e la generazione di codice, utilizzando i dataset MATH, GSM8K, Countdown e MBPP su vari modelli linguistici, che vanno da 1,5B a 9B parametri, tra i modelli Qwen, Llama e Gemma. Il nostro studio mostra che la cura di dataset più vicini alla distribuzione del modello è un aspetto critico da considerare. Mostriamo anche che una risposta finale corretta non è sempre un indicatore affidabile di un processo di ragionamento fedele.

English

We present the surprising finding that a language model's reasoning capabilities can be improved by training on synthetic datasets of chain-of-thought (CoT) traces from more capable models, even when all of those traces lead to an incorrect final answer. Our experiments show this approach can yield better performance on reasoning tasks than training on human-annotated datasets. We hypothesize that two key factors explain this phenomenon: first, the distribution of synthetic data is inherently closer to the language model's own distribution, making it more amenable to learning. Second, these `incorrect' traces are often only partially flawed and contain valid reasoning steps from which the model can learn. To further test the first hypothesis, we use a language model to paraphrase human-annotated traces -- shifting their distribution closer to the model's own distribution -- and show that this improves performance. For the second hypothesis, we introduce increasingly flawed CoT traces and study to what extent models are tolerant to these flaws. We demonstrate our findings across various reasoning domains like math, algorithmic reasoning and code generation using MATH, GSM8K, Countdown and MBPP datasets on various language models ranging from 1.5B to 9B across Qwen, Llama, and Gemma models. Our study shows that curating datasets that are closer to the model's distribution is a critical aspect to consider. We also show that a correct final answer is not always a reliable indicator of a faithful reasoning process.

Forma del Pensiero: Quando la Distribuzione Conta Più della Correttezza nei Compiti di Ragionamento

Shape of Thought: When Distribution Matters More than Correctness in Reasoning Tasks

Abstract

Support