A Forma do Pensamento: Quando a Distribuição Importa Mais que a Correção em Tarefas de Raciocínio

Resumo

Apresentamos a descoberta surpreendente de que as capacidades de raciocínio de um modelo de linguagem podem ser melhoradas treinando-o em conjuntos de dados sintéticos de traços de *chain-of-thought* (CoT, cadeia de pensamento) provenientes de modelos mais capazes, mesmo quando todos esses traços levam a uma resposta final incorreta. Nossos experimentos mostram que essa abordagem pode resultar em um desempenho superior em tarefas de raciocínio do que o treinamento em conjuntos de dados anotados por humanos. Nossa hipótese é que dois fatores-chave explicam esse fenômeno: primeiro, a distribuição dos dados sintéticos é inerentemente mais próxima da distribuição própria do modelo de linguagem, tornando-os mais propícios à aprendizagem. Segundo, esses traços "incorretos" são frequentemente apenas parcialmente falhos e contêm etapas de raciocínio válidas das quais o modelo pode aprender. Para testar ainda mais a primeira hipótese, usamos um modelo de linguagem para parafrasear traços anotados por humanos – deslocando sua distribuição para mais perto da distribuição do próprio modelo – e mostramos que isso melhora o desempenho. Para a segunda hipótese, introduzimos traços CoT progressivamente mais falhos e estudamos até que ponto os modelos são tolerantes a essas falhas. Demonstramos nossas descobertas em vários domínios de raciocínio, como matemática, raciocínio algorítmico e geração de código, usando os conjuntos de dados MATH, GSM8K, Countdown e MBPP em vários modelos de linguagem, variando de 1,5B a 9B parâmetros, incluindo os modelos Qwen, Llama e Gemma. Nosso estudo mostra que a curadoria de conjuntos de dados mais próximos da distribuição do modelo é um aspecto crítico a ser considerado. Também mostramos que uma resposta final correta nem sempre é um indicador confiável de um processo de raciocínio fidedigno.

English

We present the surprising finding that a language model's reasoning capabilities can be improved by training on synthetic datasets of chain-of-thought (CoT) traces from more capable models, even when all of those traces lead to an incorrect final answer. Our experiments show this approach can yield better performance on reasoning tasks than training on human-annotated datasets. We hypothesize that two key factors explain this phenomenon: first, the distribution of synthetic data is inherently closer to the language model's own distribution, making it more amenable to learning. Second, these `incorrect' traces are often only partially flawed and contain valid reasoning steps from which the model can learn. To further test the first hypothesis, we use a language model to paraphrase human-annotated traces -- shifting their distribution closer to the model's own distribution -- and show that this improves performance. For the second hypothesis, we introduce increasingly flawed CoT traces and study to what extent models are tolerant to these flaws. We demonstrate our findings across various reasoning domains like math, algorithmic reasoning and code generation using MATH, GSM8K, Countdown and MBPP datasets on various language models ranging from 1.5B to 9B across Qwen, Llama, and Gemma models. Our study shows that curating datasets that are closer to the model's distribution is a critical aspect to consider. We also show that a correct final answer is not always a reliable indicator of a faithful reasoning process.

A Forma do Pensamento: Quando a Distribuição Importa Mais que a Correção em Tarefas de Raciocínio

Shape of Thought: When Distribution Matters More than Correctness in Reasoning Tasks

Resumo

Support