O Raciocínio em Cadeia de Pensamento dos LLMs é um Mirage? Uma Perspectiva de Distribuição de Dados
Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens
August 2, 2025
Autores: Chengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Yancheng Wang, Yingzhen Yang, Huan Liu
cs.AI
Resumo
O prompting Chain-of-Thought (CoT) tem demonstrado melhorar o desempenho de Modelos de Linguagem de Grande Escala (LLMs) em diversas tarefas. Com essa abordagem, os LLMs parecem produzir etapas de raciocínio semelhantes às humanas antes de fornecer respostas (conhecido como raciocínio CoT), o que frequentemente leva à percepção de que eles se engajam em processos inferenciais deliberados. No entanto, alguns achados iniciais sugerem que o raciocínio CoT pode ser mais superficial do que parece, motivando-nos a explorar mais a fundo. Neste artigo, estudamos o raciocínio CoT através de uma lente de distribuição de dados e investigamos se o raciocínio CoT reflete um viés indutivo estruturado aprendido a partir de dados dentro da distribuição, permitindo que o modelo gere condicionalmente caminhos de raciocínio que se aproximam daqueles vistos durante o treinamento. Assim, sua eficácia é fundamentalmente limitada pelo grau de discrepância de distribuição entre os dados de treinamento e as consultas de teste. Com essa lente, dissecamos o raciocínio CoT em três dimensões: tarefa, comprimento e formato. Para investigar cada dimensão, projetamos o DataAlchemy, um ambiente isolado e controlado para treinar LLMs do zero e sondá-los sistematicamente sob várias condições de distribuição. Nossos resultados revelam que o raciocínio CoT é uma miragem frágil que desaparece quando é empurrado além das distribuições de treinamento. Este trabalho oferece uma compreensão mais profunda de por que e quando o raciocínio CoT falha, enfatizando o desafio contínuo de alcançar um raciocínio genuíno e generalizável.
English
Chain-of-Thought (CoT) prompting has been shown to improve Large Language
Model (LLM) performance on various tasks. With this approach, LLMs appear to
produce human-like reasoning steps before providing answers (a.k.a., CoT
reasoning), which often leads to the perception that they engage in deliberate
inferential processes. However, some initial findings suggest that CoT
reasoning may be more superficial than it appears, motivating us to explore
further. In this paper, we study CoT reasoning via a data distribution lens and
investigate if CoT reasoning reflects a structured inductive bias learned from
in-distribution data, allowing the model to conditionally generate reasoning
paths that approximate those seen during training. Thus, its effectiveness is
fundamentally bounded by the degree of distribution discrepancy between the
training data and the test queries. With this lens, we dissect CoT reasoning
via three dimensions: task, length, and format. To investigate each dimension,
we design DataAlchemy, an isolated and controlled environment to train LLMs
from scratch and systematically probe them under various distribution
conditions. Our results reveal that CoT reasoning is a brittle mirage that
vanishes when it is pushed beyond training distributions. This work offers a
deeper understanding of why and when CoT reasoning fails, emphasizing the
ongoing challenge of achieving genuine and generalizable reasoning.