ChatPaper.aiChatPaper

Is Chain-of-Thought Redeneren van LLMs een Illusie? Een Perspectief vanuit Dataverdeling

Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

August 2, 2025
Auteurs: Chengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Yancheng Wang, Yingzhen Yang, Huan Liu
cs.AI

Samenvatting

Chain-of-Thought (CoT) prompting is aangetoond dat het de prestaties van Large Language Models (LLM's) bij diverse taken verbetert. Met deze aanpak lijken LLM's mensachtige redeneerstappen te produceren voordat ze antwoorden geven (ook wel CoT-redenering genoemd), wat vaak de indruk wekt dat ze bewuste inferentiële processen uitvoeren. Echter suggereren enkele eerste bevindingen dat CoT-redenering oppervlakkiger kan zijn dan het lijkt, wat ons motiveert om dit verder te onderzoeken. In dit artikel bestuderen we CoT-redenering vanuit een datadistributieperspectief en onderzoeken we of CoT-redenering een gestructureerde inductieve bias weerspiegelt die is geleerd uit in-distributiegegevens, waardoor het model conditioneel redeneerpaden kan genereren die lijken op die welke tijdens de training zijn gezien. Daarom is de effectiviteit ervan fundamenteel beperkt door de mate van distributieverschil tussen de trainingsgegevens en de testvragen. Met dit perspectief ontleden we CoT-redenering langs drie dimensies: taak, lengte en formaat. Om elke dimensie te onderzoeken, ontwerpen we DataAlchemy, een geïsoleerde en gecontroleerde omgeving om LLM's vanaf nul te trainen en ze systematisch te testen onder verschillende distributieomstandigheden. Onze resultaten onthullen dat CoT-redenering een broos luchtspiegeling is die verdwijnt wanneer het verder wordt geduwd dan de trainingsdistributies. Dit werk biedt een dieper inzicht in waarom en wanneer CoT-redenering faalt, en benadrukt de voortdurende uitdaging om echt en generaliseerbaar redeneren te bereiken.
English
Chain-of-Thought (CoT) prompting has been shown to improve Large Language Model (LLM) performance on various tasks. With this approach, LLMs appear to produce human-like reasoning steps before providing answers (a.k.a., CoT reasoning), which often leads to the perception that they engage in deliberate inferential processes. However, some initial findings suggest that CoT reasoning may be more superficial than it appears, motivating us to explore further. In this paper, we study CoT reasoning via a data distribution lens and investigate if CoT reasoning reflects a structured inductive bias learned from in-distribution data, allowing the model to conditionally generate reasoning paths that approximate those seen during training. Thus, its effectiveness is fundamentally bounded by the degree of distribution discrepancy between the training data and the test queries. With this lens, we dissect CoT reasoning via three dimensions: task, length, and format. To investigate each dimension, we design DataAlchemy, an isolated and controlled environment to train LLMs from scratch and systematically probe them under various distribution conditions. Our results reveal that CoT reasoning is a brittle mirage that vanishes when it is pushed beyond training distributions. This work offers a deeper understanding of why and when CoT reasoning fails, emphasizing the ongoing challenge of achieving genuine and generalizable reasoning.
PDF1938August 7, 2025