ChatPaper.aiChatPaper

Является ли цепочка рассуждений в больших языковых моделях миражом? Взгляд через призму распределения данных

Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

August 2, 2025
Авторы: Chengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Yancheng Wang, Yingzhen Yang, Huan Liu
cs.AI

Аннотация

Метод Chain-of-Thought (CoT) prompting продемонстрировал улучшение производительности больших языковых моделей (LLM) в различных задачах. При таком подходе LLM, по-видимому, генерируют шаги рассуждений, похожие на человеческие, перед тем как дать ответ (так называемое CoT-рассуждение), что часто создает впечатление, будто модели участвуют в осознанных процессах логического вывода. Однако некоторые предварительные данные указывают на то, что CoT-рассуждения могут быть более поверхностными, чем кажется, что побуждает нас к дальнейшему исследованию. В данной работе мы изучаем CoT-рассуждения через призму распределения данных и исследуем, отражает ли CoT-рассуждение структурированную индуктивную предвзятость, усвоенную из данных в рамках распределения, что позволяет модели условно генерировать пути рассуждений, приближенные к тем, что наблюдались во время обучения. Таким образом, его эффективность принципиально ограничена степенью расхождения распределений между обучающими данными и тестовыми запросами. С этой точки зрения мы анализируем CoT-рассуждения по трем измерениям: задача, длина и формат. Для исследования каждого измерения мы разрабатываем DataAlchemy — изолированную и контролируемую среду для обучения LLM с нуля и систематического тестирования их в различных условиях распределения. Наши результаты показывают, что CoT-рассуждение является хрупкой иллюзией, которая исчезает, когда его выходят за пределы обучающих распределений. Эта работа предлагает более глубокое понимание того, почему и когда CoT-рассуждения терпят неудачу, подчеркивая продолжающуюся проблему достижения подлинного и обобщаемого рассуждения.
English
Chain-of-Thought (CoT) prompting has been shown to improve Large Language Model (LLM) performance on various tasks. With this approach, LLMs appear to produce human-like reasoning steps before providing answers (a.k.a., CoT reasoning), which often leads to the perception that they engage in deliberate inferential processes. However, some initial findings suggest that CoT reasoning may be more superficial than it appears, motivating us to explore further. In this paper, we study CoT reasoning via a data distribution lens and investigate if CoT reasoning reflects a structured inductive bias learned from in-distribution data, allowing the model to conditionally generate reasoning paths that approximate those seen during training. Thus, its effectiveness is fundamentally bounded by the degree of distribution discrepancy between the training data and the test queries. With this lens, we dissect CoT reasoning via three dimensions: task, length, and format. To investigate each dimension, we design DataAlchemy, an isolated and controlled environment to train LLMs from scratch and systematically probe them under various distribution conditions. Our results reveal that CoT reasoning is a brittle mirage that vanishes when it is pushed beyond training distributions. This work offers a deeper understanding of why and when CoT reasoning fails, emphasizing the ongoing challenge of achieving genuine and generalizable reasoning.
PDF1747August 7, 2025