¿Es el razonamiento de cadena de pensamiento de los LLM un espejismo? Una perspectiva desde la distribución de datos
Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens
August 2, 2025
Autores: Chengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Yancheng Wang, Yingzhen Yang, Huan Liu
cs.AI
Resumen
El enfoque de Chain-of-Thought (CoT) ha demostrado mejorar el rendimiento de los Modelos de Lenguaje de Gran Escala (LLM) en diversas tareas. Con este método, los LLM parecen producir pasos de razonamiento similares a los humanos antes de proporcionar respuestas (conocido como razonamiento CoT), lo que a menudo lleva a la percepción de que realizan procesos inferenciales deliberados. Sin embargo, algunos hallazgos iniciales sugieren que el razonamiento CoT podría ser más superficial de lo que parece, lo que nos motiva a explorar más a fondo. En este artículo, estudiamos el razonamiento CoT desde una perspectiva de distribución de datos e investigamos si este refleja un sesgo inductivo estructurado aprendido de datos dentro de la distribución, permitiendo que el modelo genere condicionalmente caminos de razonamiento que se aproximen a los observados durante el entrenamiento. Por lo tanto, su efectividad está fundamentalmente limitada por el grado de discrepancia en la distribución entre los datos de entrenamiento y las consultas de prueba. Con esta perspectiva, analizamos el razonamiento CoT a través de tres dimensiones: tarea, longitud y formato. Para investigar cada dimensión, diseñamos DataAlchemy, un entorno aislado y controlado para entrenar LLM desde cero y sondearlos sistemáticamente bajo diversas condiciones de distribución. Nuestros resultados revelan que el razonamiento CoT es un espejismo frágil que desaparece cuando se lo lleva más allá de las distribuciones de entrenamiento. Este trabajo ofrece una comprensión más profunda de por qué y cuándo falla el razonamiento CoT, enfatizando el desafío continuo de lograr un razonamiento genuino y generalizable.
English
Chain-of-Thought (CoT) prompting has been shown to improve Large Language
Model (LLM) performance on various tasks. With this approach, LLMs appear to
produce human-like reasoning steps before providing answers (a.k.a., CoT
reasoning), which often leads to the perception that they engage in deliberate
inferential processes. However, some initial findings suggest that CoT
reasoning may be more superficial than it appears, motivating us to explore
further. In this paper, we study CoT reasoning via a data distribution lens and
investigate if CoT reasoning reflects a structured inductive bias learned from
in-distribution data, allowing the model to conditionally generate reasoning
paths that approximate those seen during training. Thus, its effectiveness is
fundamentally bounded by the degree of distribution discrepancy between the
training data and the test queries. With this lens, we dissect CoT reasoning
via three dimensions: task, length, and format. To investigate each dimension,
we design DataAlchemy, an isolated and controlled environment to train LLMs
from scratch and systematically probe them under various distribution
conditions. Our results reveal that CoT reasoning is a brittle mirage that
vanishes when it is pushed beyond training distributions. This work offers a
deeper understanding of why and when CoT reasoning fails, emphasizing the
ongoing challenge of achieving genuine and generalizable reasoning.