Ist die Chain-of-Thought-Denkweise von LLMs eine Illusion? Eine Betrachtung aus der Perspektive der Datenverteilung.
Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens
August 2, 2025
papers.authors: Chengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Yancheng Wang, Yingzhen Yang, Huan Liu
cs.AI
papers.abstract
Chain-of-Thought (CoT) Prompting hat sich als wirksame Methode erwiesen, um die Leistung von Large Language Models (LLMs) bei verschiedenen Aufgaben zu verbessern. Bei diesem Ansatz scheinen LLMs menschenähnliche Denkschritte zu erzeugen, bevor sie Antworten liefern (sog. CoT-Reasoning), was oft den Eindruck erweckt, dass sie gezielte Schlussfolgerungsprozesse durchführen. Erste Erkenntnisse deuten jedoch darauf hin, dass CoT-Reasoning oberflächlicher sein könnte, als es erscheint, was uns dazu motiviert, dies weiter zu erforschen. In dieser Arbeit untersuchen wir CoT-Reasoning aus der Perspektive der Datenverteilung und prüfen, ob CoT-Reasoning einen strukturierten induktiven Bias widerspiegelt, der aus in-distribution Daten gelernt wurde und es dem Modell ermöglicht, bedingt Denkpfade zu generieren, die denen während des Trainings ähnlich sind. Somit ist seine Wirksamkeit grundlegend durch den Grad der Verteilungsabweichung zwischen den Trainingsdaten und den Testanfragen begrenzt. Mit diesem Ansatz zerlegen wir CoT-Reasoning in drei Dimensionen: Aufgabe, Länge und Format. Um jede Dimension zu untersuchen, entwickeln wir DataAlchemy, eine isolierte und kontrollierte Umgebung, in der LLMs von Grund auf trainiert und systematisch unter verschiedenen Verteilungsbedingungen geprüft werden. Unsere Ergebnisse zeigen, dass CoT-Reasoning ein brüchiges Trugbild ist, das verschwindet, wenn es über die Trainingsverteilungen hinausgeht. Diese Arbeit bietet ein tieferes Verständnis dafür, warum und wann CoT-Reasoning versagt, und unterstreicht die anhaltende Herausforderung, echtes und generalisierbares Reasoning zu erreichen.
English
Chain-of-Thought (CoT) prompting has been shown to improve Large Language
Model (LLM) performance on various tasks. With this approach, LLMs appear to
produce human-like reasoning steps before providing answers (a.k.a., CoT
reasoning), which often leads to the perception that they engage in deliberate
inferential processes. However, some initial findings suggest that CoT
reasoning may be more superficial than it appears, motivating us to explore
further. In this paper, we study CoT reasoning via a data distribution lens and
investigate if CoT reasoning reflects a structured inductive bias learned from
in-distribution data, allowing the model to conditionally generate reasoning
paths that approximate those seen during training. Thus, its effectiveness is
fundamentally bounded by the degree of distribution discrepancy between the
training data and the test queries. With this lens, we dissect CoT reasoning
via three dimensions: task, length, and format. To investigate each dimension,
we design DataAlchemy, an isolated and controlled environment to train LLMs
from scratch and systematically probe them under various distribution
conditions. Our results reveal that CoT reasoning is a brittle mirage that
vanishes when it is pushed beyond training distributions. This work offers a
deeper understanding of why and when CoT reasoning fails, emphasizing the
ongoing challenge of achieving genuine and generalizable reasoning.