ChatPaper.aiChatPaper

La Forma del Pensamiento: Cuando la Distribución Importa Más que la Corrección en Tareas de Razonamiento

Shape of Thought: When Distribution Matters More than Correctness in Reasoning Tasks

December 24, 2025
Autores: Abhranil Chandra, Ayush Agrawal, Arian Hosseini, Sebastian Fischmeister, Rishabh Agarwal, Navin Goyal, Aaron Courville
cs.AI

Resumen

Presentamos el sorprendente hallazgo de que las capacidades de razonamiento de un modelo de lenguaje pueden mejorarse entrenándolo con conjuntos de datos sintéticos de trazas de cadena de pensamiento (CoT) provenientes de modelos más capaces, incluso cuando todas esas trazas conducen a una respuesta final incorrecta. Nuestros experimentos muestran que este enfoque puede producir un mejor rendimiento en tareas de razonamiento que el entrenamiento con conjuntos de datos anotados por humanos. Planteamos la hipótesis de que dos factores clave explican este fenómeno: primero, la distribución de los datos sintéticos es inherentemente más cercana a la distribución propia del modelo de lenguaje, lo que los hace más susceptibles de ser aprendidos. Segundo, estas trazas "incorrectas" a menudo solo están parcialmente equivocadas y contienen pasos de razonamiento válidos de los que el modelo puede aprender. Para probar más a fondo la primera hipótesis, utilizamos un modelo de lenguaje para parafrasear trazas anotadas por humanos —desplazando su distribución para acercarla a la del propio modelo— y demostramos que esto mejora el rendimiento. Para la segunda hipótesis, introducimos trazas CoT con errores progresivamente mayores y estudiamos hasta qué punto los modelos son tolerantes a estos fallos. Demostramos nuestros hallazgos en varios dominios de razonamiento como matemáticas, razonamiento algorítmico y generación de código, utilizando los conjuntos de datos MATH, GSM8K, Countdown y MBPP en varios modelos de lenguaje que van desde 1.5B hasta 9B parámetros, incluyendo modelos Qwen, Llama y Gemma. Nuestro estudio muestra que la curación de conjuntos de datos que están más cerca de la distribución del modelo es un aspecto crítico a considerar. También demostramos que una respuesta final correcta no siempre es un indicador confiable de un proceso de razonamiento fiable.
English
We present the surprising finding that a language model's reasoning capabilities can be improved by training on synthetic datasets of chain-of-thought (CoT) traces from more capable models, even when all of those traces lead to an incorrect final answer. Our experiments show this approach can yield better performance on reasoning tasks than training on human-annotated datasets. We hypothesize that two key factors explain this phenomenon: first, the distribution of synthetic data is inherently closer to the language model's own distribution, making it more amenable to learning. Second, these `incorrect' traces are often only partially flawed and contain valid reasoning steps from which the model can learn. To further test the first hypothesis, we use a language model to paraphrase human-annotated traces -- shifting their distribution closer to the model's own distribution -- and show that this improves performance. For the second hypothesis, we introduce increasingly flawed CoT traces and study to what extent models are tolerant to these flaws. We demonstrate our findings across various reasoning domains like math, algorithmic reasoning and code generation using MATH, GSM8K, Countdown and MBPP datasets on various language models ranging from 1.5B to 9B across Qwen, Llama, and Gemma models. Our study shows that curating datasets that are closer to the model's distribution is a critical aspect to consider. We also show that a correct final answer is not always a reliable indicator of a faithful reasoning process.
PDF11December 31, 2025