ChatPaper.aiChatPaper

Когнитивные основы мышления и их проявление в больших языковых моделях

Cognitive Foundations for Reasoning and Their Manifestation in LLMs

November 20, 2025
Авторы: Priyanka Kargupta, Shuyue Stella Li, Haocheng Wang, Jinu Lee, Shan Chen, Orevaoghene Ahia, Dean Light, Thomas L. Griffiths, Max Kleiman-Weiner, Jiawei Han, Asli Celikyilmaz, Yulia Tsvetkov
cs.AI

Аннотация

Крупные языковые модели (LLMs) успешно решают сложные задачи, но допускают ошибки в более простых вариантах, что указывает на принципиальное отличие их механизмов получения правильных ответов от человеческого мышления. Для изучения этого разрыва мы синтезировали исследования когнитивной науки в таксономию из 28 когнитивных элементов, охватывающих инварианты рассуждений, метакогнитивный контроль, репрезентации для организации мышления и знаний, а также операции преобразования. Мы представляем детализированную систему оценки и проводим первое крупномасштабное эмпирическое исследование 192 тысяч трасс рассуждений 18 моделей в текстовой, визуальной и аудиальной модальностях, дополненных 54 трассами вербальных протоколов людей, которые делаем общедоступными. Результаты показывают, что модели недостаточно используют когнитивные элементы, коррелирующие с успехом, сводя обработку к жесткому последовательному анализу в плохо структурированных задачах, где критически важны разнообразные репрезентации и метакогнитивный мониторинг. Человеческие трассы демонстрируют бо́льшую абстракцию и концептуальную обработку, тогда как модели ограничиваются поверхностным перебором. Мета-анализ 1.6 тысяч научных работ выявил концентрацию исследовательского сообщества на легко量化емых элементах (последовательная организация: 55%, декомпозиция: 60%) при игнорировании метакогнитивного контроля (самоосознание: 16%), который коррелирует с успехом. Модели обладают поведенческими репертуарами, связанными с успехом, но не применяют их спонтанно. Используя эти закономерности, мы разработали методику оперативного управления рассуждениями, которая автоматически выстраивает успешные структуры, улучшая производительность на сложных задачах до 66.7%. Создавая общий словарь для когнитивной науки и исследований LLM, наш подход позволяет систематически диагностировать сбои в рассуждениях и принципиально развивать модели, мыслящие через устойчивые когнитивные механизмы, а не случайные сокращения, одновременно предоставляя инструменты для масштабной проверки теорий человеческого познания.
English
Large language models (LLMs) solve complex problems yet fail on simpler variants, suggesting they achieve correct outputs through mechanisms fundamentally different from human reasoning. To understand this gap, we synthesize cognitive science research into a taxonomy of 28 cognitive elements spanning reasoning invariants, meta-cognitive controls, representations for organizing reasoning & knowledge, and transformation operations. We introduce a fine-grained evaluation framework and conduct the first large-scale empirical analysis of 192K traces from 18 models across text, vision, and audio, complemented by 54 human think-aloud traces, which we make publicly available. We find that models under-utilize cognitive elements correlated with success, narrowing to rigid sequential processing on ill-structured problems where diverse representations and meta-cognitive monitoring are critical. Human traces show more abstraction and conceptual processing, while models default to surface-level enumeration. Meta-analysis of 1.6K LLM reasoning papers reveals the research community concentrates on easily quantifiable elements (sequential organization: 55%, decomposition: 60%) but neglecting meta-cognitive controls (self-awareness: 16%) that correlate with success. Models possess behavioral repertoires associated with success but fail to deploy them spontaneously. Leveraging these patterns, we develop test-time reasoning guidance that automatically scaffold successful structures, improving performance by up to 66.7% on complex problems. By establishing a shared vocabulary between cognitive science and LLM research, our framework enables systematic diagnosis of reasoning failures and principled development of models that reason through robust cognitive mechanisms rather than spurious shortcuts, while providing tools to test theories of human cognition at scale.
PDF83December 1, 2025