¿Es el razonamiento de cadena de pensamiento de los LLM un espejismo? Una perspectiva desde la distribución de datos

Resumen

El enfoque de Chain-of-Thought (CoT) ha demostrado mejorar el rendimiento de los Modelos de Lenguaje de Gran Escala (LLM) en diversas tareas. Con este método, los LLM parecen producir pasos de razonamiento similares a los humanos antes de proporcionar respuestas (conocido como razonamiento CoT), lo que a menudo lleva a la percepción de que realizan procesos inferenciales deliberados. Sin embargo, algunos hallazgos iniciales sugieren que el razonamiento CoT podría ser más superficial de lo que parece, lo que nos motiva a explorar más a fondo. En este artículo, estudiamos el razonamiento CoT desde una perspectiva de distribución de datos e investigamos si este refleja un sesgo inductivo estructurado aprendido de datos dentro de la distribución, permitiendo que el modelo genere condicionalmente caminos de razonamiento que se aproximen a los observados durante el entrenamiento. Por lo tanto, su efectividad está fundamentalmente limitada por el grado de discrepancia en la distribución entre los datos de entrenamiento y las consultas de prueba. Con esta perspectiva, analizamos el razonamiento CoT a través de tres dimensiones: tarea, longitud y formato. Para investigar cada dimensión, diseñamos DataAlchemy, un entorno aislado y controlado para entrenar LLM desde cero y sondearlos sistemáticamente bajo diversas condiciones de distribución. Nuestros resultados revelan que el razonamiento CoT es un espejismo frágil que desaparece cuando se lo lleva más allá de las distribuciones de entrenamiento. Este trabajo ofrece una comprensión más profunda de por qué y cuándo falla el razonamiento CoT, enfatizando el desafío continuo de lograr un razonamiento genuino y generalizable.

English

Chain-of-Thought (CoT) prompting has been shown to improve Large Language Model (LLM) performance on various tasks. With this approach, LLMs appear to produce human-like reasoning steps before providing answers (a.k.a., CoT reasoning), which often leads to the perception that they engage in deliberate inferential processes. However, some initial findings suggest that CoT reasoning may be more superficial than it appears, motivating us to explore further. In this paper, we study CoT reasoning via a data distribution lens and investigate if CoT reasoning reflects a structured inductive bias learned from in-distribution data, allowing the model to conditionally generate reasoning paths that approximate those seen during training. Thus, its effectiveness is fundamentally bounded by the degree of distribution discrepancy between the training data and the test queries. With this lens, we dissect CoT reasoning via three dimensions: task, length, and format. To investigate each dimension, we design DataAlchemy, an isolated and controlled environment to train LLMs from scratch and systematically probe them under various distribution conditions. Our results reveal that CoT reasoning is a brittle mirage that vanishes when it is pushed beyond training distributions. This work offers a deeper understanding of why and when CoT reasoning fails, emphasizing the ongoing challenge of achieving genuine and generalizable reasoning.

¿Es el razonamiento de cadena de pensamiento de los LLM un espejismo? Una perspectiva desde la distribución de datos

Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Resumen

Support