Le raisonnement en chaîne de pensée des LLM est-il un mirage ? Une perspective par la distribution des données
Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens
August 2, 2025
papers.authors: Chengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Yancheng Wang, Yingzhen Yang, Huan Liu
cs.AI
papers.abstract
L'incitation par Chaîne de Pensée (Chain-of-Thought, CoT) a démontré son efficacité pour améliorer les performances des Modèles de Langage à Grande Échelle (Large Language Models, LLM) sur diverses tâches. Avec cette approche, les LLM semblent produire des étapes de raisonnement similaires à celles des humains avant de fournir des réponses (appelé raisonnement CoT), ce qui conduit souvent à l'impression qu'ils s'engagent dans des processus inférentiels délibérés. Cependant, certaines découvertes initiales suggèrent que le raisonnement CoT pourrait être plus superficiel qu'il n'y paraît, ce qui nous motive à explorer davantage. Dans cet article, nous étudions le raisonnement CoT à travers une perspective de distribution de données et examinons si ce raisonnement reflète un biais inductif structuré appris à partir de données intra-distribution, permettant au modèle de générer conditionnellement des chemins de raisonnement qui s'approchent de ceux observés pendant l'entraînement. Ainsi, son efficacité est fondamentalement limitée par le degré de divergence de distribution entre les données d'entraînement et les requêtes de test. Avec cette perspective, nous disséquons le raisonnement CoT selon trois dimensions : la tâche, la longueur et le format. Pour explorer chaque dimension, nous concevons DataAlchemy, un environnement isolé et contrôlé pour entraîner des LLM à partir de zéro et les tester systématiquement sous diverses conditions de distribution. Nos résultats révèlent que le raisonnement CoT est un mirage fragile qui disparaît lorsqu'il est poussé au-delà des distributions d'entraînement. Ce travail offre une compréhension plus approfondie des raisons et des moments où le raisonnement CoT échoue, soulignant le défi permanent d'atteindre un raisonnement authentique et généralisable.
English
Chain-of-Thought (CoT) prompting has been shown to improve Large Language
Model (LLM) performance on various tasks. With this approach, LLMs appear to
produce human-like reasoning steps before providing answers (a.k.a., CoT
reasoning), which often leads to the perception that they engage in deliberate
inferential processes. However, some initial findings suggest that CoT
reasoning may be more superficial than it appears, motivating us to explore
further. In this paper, we study CoT reasoning via a data distribution lens and
investigate if CoT reasoning reflects a structured inductive bias learned from
in-distribution data, allowing the model to conditionally generate reasoning
paths that approximate those seen during training. Thus, its effectiveness is
fundamentally bounded by the degree of distribution discrepancy between the
training data and the test queries. With this lens, we dissect CoT reasoning
via three dimensions: task, length, and format. To investigate each dimension,
we design DataAlchemy, an isolated and controlled environment to train LLMs
from scratch and systematically probe them under various distribution
conditions. Our results reveal that CoT reasoning is a brittle mirage that
vanishes when it is pushed beyond training distributions. This work offers a
deeper understanding of why and when CoT reasoning fails, emphasizing the
ongoing challenge of achieving genuine and generalizable reasoning.