ChatPaper.aiChatPaper

Il Ragionamento a Catena di Pensiero dei Modelli Linguistici è un Miraggio? Una Prospettiva sulla Distribuzione dei Dati

Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

August 2, 2025
Autori: Chengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Yancheng Wang, Yingzhen Yang, Huan Liu
cs.AI

Abstract

Il prompting a Catena di Pensiero (Chain-of-Thought, CoT) ha dimostrato di migliorare le prestazioni dei Modelli Linguistici di Grande Dimensione (Large Language Models, LLM) in vari compiti. Con questo approccio, i LLM sembrano produrre passaggi di ragionamento simili a quelli umani prima di fornire risposte (noto anche come ragionamento CoT), il che spesso porta alla percezione che essi si impegnino in processi inferenziali deliberati. Tuttavia, alcuni risultati iniziali suggeriscono che il ragionamento CoT possa essere più superficiale di quanto appaia, motivandoci a esplorare ulteriormente. In questo articolo, studiamo il ragionamento CoT attraverso una lente di distribuzione dei dati e indaghiamo se il ragionamento CoT rifletta un bias induttivo strutturato appreso dai dati in-distribuzione, consentendo al modello di generare condizionalmente percorsi di ragionamento che approssimano quelli osservati durante l'addestramento. Pertanto, la sua efficacia è fondamentalmente limitata dal grado di discrepanza distributiva tra i dati di addestramento e le query di test. Con questa lente, analizziamo il ragionamento CoT attraverso tre dimensioni: compito, lunghezza e formato. Per indagare ciascuna dimensione, progettiamo DataAlchemy, un ambiente isolato e controllato per addestrare LLM da zero e sondarli sistematicamente in varie condizioni distributive. I nostri risultati rivelano che il ragionamento CoT è un'illusione fragile che svanisce quando viene spinto oltre le distribuzioni di addestramento. Questo lavoro offre una comprensione più profonda del perché e del quando il ragionamento CoT fallisce, sottolineando la sfida continua di raggiungere un ragionamento genuino e generalizzabile.
English
Chain-of-Thought (CoT) prompting has been shown to improve Large Language Model (LLM) performance on various tasks. With this approach, LLMs appear to produce human-like reasoning steps before providing answers (a.k.a., CoT reasoning), which often leads to the perception that they engage in deliberate inferential processes. However, some initial findings suggest that CoT reasoning may be more superficial than it appears, motivating us to explore further. In this paper, we study CoT reasoning via a data distribution lens and investigate if CoT reasoning reflects a structured inductive bias learned from in-distribution data, allowing the model to conditionally generate reasoning paths that approximate those seen during training. Thus, its effectiveness is fundamentally bounded by the degree of distribution discrepancy between the training data and the test queries. With this lens, we dissect CoT reasoning via three dimensions: task, length, and format. To investigate each dimension, we design DataAlchemy, an isolated and controlled environment to train LLMs from scratch and systematically probe them under various distribution conditions. Our results reveal that CoT reasoning is a brittle mirage that vanishes when it is pushed beyond training distributions. This work offers a deeper understanding of why and when CoT reasoning fails, emphasizing the ongoing challenge of achieving genuine and generalizable reasoning.
PDF23811December 16, 2025