Kognitive Grundlagen des Denkens und ihre Ausprägung in großen Sprachmodellen
Cognitive Foundations for Reasoning and Their Manifestation in LLMs
November 20, 2025
papers.authors: Priyanka Kargupta, Shuyue Stella Li, Haocheng Wang, Jinu Lee, Shan Chen, Orevaoghene Ahia, Dean Light, Thomas L. Griffiths, Max Kleiman-Weiner, Jiawei Han, Asli Celikyilmaz, Yulia Tsvetkov
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) lösen komplexe Probleme, scheitern jedoch an einfacheren Varianten, was darauf hindeutet, dass sie korrekte Ergebnisse durch Mechanismen erzielen, die sich grundlegend vom menschlichen Denken unterscheiden. Um diese Lücke zu verstehen, fassen wir Forschung aus der Kognitionswissenschaft zu einer Taxonomie von 28 kognitiven Elementen zusammen, die Denkinvarianten, metakognitive Kontrollen, Repräsentationen zur Organisation von Denken und Wissen sowie Transformationsoperationen umfassen. Wir führen ein detailliertes Evaluierungsframework ein und führen die erste großangelegte empirische Analyse von 192.000 Traces aus 18 Modellen über Text, Bild und Audio durch, ergänzt durch 54 menschliche "Think-Aloud"-Traces, die wir öffentlich verfügbar machen.
Wir stellen fest, dass Modelle kognitive Elemente, die mit Erfolg korrelieren, unterauslasten und sich bei schlecht strukturierten Problemen, bei denen diverse Repräsentationen und metakognitive Überwachung kritisch sind, auf rigide sequentielle Verarbeitung verengen. Menschliche Traces zeigen mehr Abstraktion und konzeptuelle Verarbeitung, während Modelle standardmäßig zu oberflächlicher Enumeration neigen. Eine Metaanalyse von 1.600 LLM-Reasoning-Papers zeigt, dass sich die Forschungsgemeinschaft auf leicht quantifizierbare Elemente konzentriert (sequentielle Organisation: 55%, Zerlegung: 60%), aber metakognitive Kontrollen (Selbstwahrnehmung: 16%), die mit Erfolg korrelieren, vernachlässigt. Modelle verfügen über Verhaltensrepertoires, die mit Erfolg assoziiert sind, setzen diese aber nicht spontan ein.
Durch Nutzung dieser Muster entwickeln wir Test-Time-Reasoning-Guidance, die erfolgreiche Strukturen automatisch scaffoldet und die Leistung bei komplexen Problemen um bis zu 66,7% verbessert. Indem unser Framework eine gemeinsame Sprache zwischen Kognitionswissenschaft und LLM-Forschung etabliert, ermöglicht es die systematische Diagnose von Reasoning-Fehlern und die prinzipiengeleitete Entwicklung von Modellen, die durch robuste kognitive Mechanismen statt durch trügerische Abkürzungen schlussfolgern, während es gleichzeitig Werkzeuge bereitstellt, um Theorien menschlicher Kognition im großen Maßstab zu testen.
English
Large language models (LLMs) solve complex problems yet fail on simpler variants, suggesting they achieve correct outputs through mechanisms fundamentally different from human reasoning. To understand this gap, we synthesize cognitive science research into a taxonomy of 28 cognitive elements spanning reasoning invariants, meta-cognitive controls, representations for organizing reasoning & knowledge, and transformation operations. We introduce a fine-grained evaluation framework and conduct the first large-scale empirical analysis of 192K traces from 18 models across text, vision, and audio, complemented by 54 human think-aloud traces, which we make publicly available. We find that models under-utilize cognitive elements correlated with success, narrowing to rigid sequential processing on ill-structured problems where diverse representations and meta-cognitive monitoring are critical. Human traces show more abstraction and conceptual processing, while models default to surface-level enumeration. Meta-analysis of 1.6K LLM reasoning papers reveals the research community concentrates on easily quantifiable elements (sequential organization: 55%, decomposition: 60%) but neglecting meta-cognitive controls (self-awareness: 16%) that correlate with success. Models possess behavioral repertoires associated with success but fail to deploy them spontaneously. Leveraging these patterns, we develop test-time reasoning guidance that automatically scaffold successful structures, improving performance by up to 66.7% on complex problems. By establishing a shared vocabulary between cognitive science and LLM research, our framework enables systematic diagnosis of reasoning failures and principled development of models that reason through robust cognitive mechanisms rather than spurious shortcuts, while providing tools to test theories of human cognition at scale.