Cognitieve Grondslagen voor Redeneren en Hun Manifestatie in LLM's
Cognitive Foundations for Reasoning and Their Manifestation in LLMs
November 20, 2025
Auteurs: Priyanka Kargupta, Shuyue Stella Li, Haocheng Wang, Jinu Lee, Shan Chen, Orevaoghene Ahia, Dean Light, Thomas L. Griffiths, Max Kleiman-Weiner, Jiawei Han, Asli Celikyilmaz, Yulia Tsvetkov
cs.AI
Samenvatting
Grote taalmodellen (LLM's) lossen complexe problemen op, maar falen bij eenvoudigere varianten, wat suggereert dat ze tot correcte uitkomsten komen via mechanismen die fundamenteel verschillen van menselijk redeneren. Om deze kloof te begrijpen, synthetiseren we cognitief wetenschappelijk onderzoek tot een taxonomie van 28 cognitieve elementen, die redeneerinvarianten, metacognitieve controles, representaties voor het organiseren van redeneren en kennis, en transformatieoperaties omvatten. We introduceren een fijnmazig evaluatieraamwerk en voeren de eerste grootschalige empirische analyse uit van 192K traces van 18 modellen over tekst, beeld en audio, aangevuld met 54 menselijke hardop-denk-traces, die we publiek beschikbaar stellen. We constateren dat modellen cognitieve elementen die gecorreleerd zijn met succes onderbenutten, en zich vernauwen tot rigide sequentiële verwerking bij slecht gestructureerde problemen waar juist diverse representaties en metacognitieve monitoring cruciaal zijn. Menselijke traces tonen meer abstractie en conceptuele verwerking, terwijl modellen terugvallen op oppervlakkige enumeratie. Een meta-analyse van 1.6K LLM-redeneerartikelen onthult dat de onderzoeksgemeenschap zich concentreert op gemakkelijk kwantificeerbare elementen (sequentiële organisatie: 55%, decompositie: 60%), maar metacognitieve controles (zelfbewustzijn: 16%) die met succes correleren verwaarloost. Modellen bezitten gedragsrepertoires geassocieerd met succes, maar zetten deze niet spontaan in. Gebruikmakend van deze patronen ontwikkelen we testtijd-redeneerbegeleiding die automatisch succesvolle structureen steunt, wat de prestaties op complexe problemen met tot 66.7% verbetert. Door een gedeelde vocabulaire te creëren tussen de cognitieve wetenschap en LLM-onderzoek, stelt ons raamwerk een systematische diagnose van redeneerfouten en principiële ontwikkeling van modellen die redeneren via robuuste cognitieve mechanismen in plaats van oppervlakkige shortcuts mogelijk, terwijl het tools biedt om theorieën over menselijke cognitie op grote schaal te testen.
English
Large language models (LLMs) solve complex problems yet fail on simpler variants, suggesting they achieve correct outputs through mechanisms fundamentally different from human reasoning. To understand this gap, we synthesize cognitive science research into a taxonomy of 28 cognitive elements spanning reasoning invariants, meta-cognitive controls, representations for organizing reasoning & knowledge, and transformation operations. We introduce a fine-grained evaluation framework and conduct the first large-scale empirical analysis of 192K traces from 18 models across text, vision, and audio, complemented by 54 human think-aloud traces, which we make publicly available. We find that models under-utilize cognitive elements correlated with success, narrowing to rigid sequential processing on ill-structured problems where diverse representations and meta-cognitive monitoring are critical. Human traces show more abstraction and conceptual processing, while models default to surface-level enumeration. Meta-analysis of 1.6K LLM reasoning papers reveals the research community concentrates on easily quantifiable elements (sequential organization: 55%, decomposition: 60%) but neglecting meta-cognitive controls (self-awareness: 16%) that correlate with success. Models possess behavioral repertoires associated with success but fail to deploy them spontaneously. Leveraging these patterns, we develop test-time reasoning guidance that automatically scaffold successful structures, improving performance by up to 66.7% on complex problems. By establishing a shared vocabulary between cognitive science and LLM research, our framework enables systematic diagnosis of reasoning failures and principled development of models that reason through robust cognitive mechanisms rather than spurious shortcuts, while providing tools to test theories of human cognition at scale.