推論の認知的基盤と大規模言語モデルにおけるその発現
Cognitive Foundations for Reasoning and Their Manifestation in LLMs
November 20, 2025
著者: Priyanka Kargupta, Shuyue Stella Li, Haocheng Wang, Jinu Lee, Shan Chen, Orevaoghene Ahia, Dean Light, Thomas L. Griffiths, Max Kleiman-Weiner, Jiawei Han, Asli Celikyilmaz, Yulia Tsvetkov
cs.AI
要旨
大規模言語モデル(LLM)は複雑な問題を解決する一方で、より単純な変種問題には失敗することがあり、これは人間の推論とは根本的に異なるメカニズムを通じて正しい出力を得ていることを示唆している。この隔たりを理解するため、我々は認知科学の研究を統合し、推論不変性、メタ認知的制御、推論と知識を組織化するための表現、変換操作にまたがる28の認知要素からなる分類体系を構築した。細粒度の評価フレームワークを導入し、テキスト・画像・音声にわたる18モデルから192Kの推論軌跡、さらに公開する54の人間の発話思考プロトコルを用いて初の大規模実証分析を実施した。その結果、モデルは成功と相関する認知要素を十分に活用しておらず、多様な表現とメタ認知的モニタリングが決定的となる非構造化問題では硬直的な逐次処理に偏ることがわかった。人間の軌跡ではより多くの抽象化と概念的処理が見られるのに対し、モデルは表面的な列挙に依存する傾向があった。1.6KのLLM推論論文のメタ分析から、研究コミュニティは定量化が容易な要素(逐次的組織化:55%、分解:60%)に集中する一方、成功と相関するメタ認知的制御(自己認識:16%)を軽視している実態が明らかになった。モデルは成功に関連する行動レパートリーを有しながらも、それらを自律的に展開できない。これらのパターンを活用し、我々はテスト時に成功構造を自動支援する推論ガイダンスを開発し、複雑問題での性能を最大66.7%向上させた。認知科学とLLM研究の間の共通語彙を確立することで、本フレームワークは推論失敗の体系的な診断と、虚偽の近道ではなく堅牢な認知メカニズムによる推論モデルの原理的開発を可能にするとともに、人間の認知理論を大規模に検証するツールを提供する。
English
Large language models (LLMs) solve complex problems yet fail on simpler variants, suggesting they achieve correct outputs through mechanisms fundamentally different from human reasoning. To understand this gap, we synthesize cognitive science research into a taxonomy of 28 cognitive elements spanning reasoning invariants, meta-cognitive controls, representations for organizing reasoning & knowledge, and transformation operations. We introduce a fine-grained evaluation framework and conduct the first large-scale empirical analysis of 192K traces from 18 models across text, vision, and audio, complemented by 54 human think-aloud traces, which we make publicly available. We find that models under-utilize cognitive elements correlated with success, narrowing to rigid sequential processing on ill-structured problems where diverse representations and meta-cognitive monitoring are critical. Human traces show more abstraction and conceptual processing, while models default to surface-level enumeration. Meta-analysis of 1.6K LLM reasoning papers reveals the research community concentrates on easily quantifiable elements (sequential organization: 55%, decomposition: 60%) but neglecting meta-cognitive controls (self-awareness: 16%) that correlate with success. Models possess behavioral repertoires associated with success but fail to deploy them spontaneously. Leveraging these patterns, we develop test-time reasoning guidance that automatically scaffold successful structures, improving performance by up to 66.7% on complex problems. By establishing a shared vocabulary between cognitive science and LLM research, our framework enables systematic diagnosis of reasoning failures and principled development of models that reason through robust cognitive mechanisms rather than spurious shortcuts, while providing tools to test theories of human cognition at scale.