Fondements cognitifs du raisonnement et leur manifestation dans les LLM
Cognitive Foundations for Reasoning and Their Manifestation in LLMs
November 20, 2025
papers.authors: Priyanka Kargupta, Shuyue Stella Li, Haocheng Wang, Jinu Lee, Shan Chen, Orevaoghene Ahia, Dean Light, Thomas L. Griffiths, Max Kleiman-Weiner, Jiawei Han, Asli Celikyilmaz, Yulia Tsvetkov
cs.AI
papers.abstract
Les grands modèles de langage (LLM) résolvent des problèmes complexes mais échouent sur des variantes plus simples, suggérant qu'ils produisent des réponses correctes via des mécanismes fondamentalement différents du raisonnement humain. Pour comprendre cet écart, nous synthétisons la recherche en sciences cognitives en une taxonomie de 28 éléments cognitifs couvrant les invariants de raisonnement, les contrôles métacognitifs, les représentations pour organiser le raisonnement et les connaissances, et les opérations de transformation. Nous introduisons un cadre d'évaluation granulaire et réalisons la première analyse empirique à grande échelle de 192 000 traces provenant de 18 modèles across le texte, la vision et l'audio, complétées par 54 traces de verbalisation humaine que nous rendons publiques. Nous constatons que les modèles sous-utilisent les éléments cognitifs corrélés au succès, se limitant à un traitement séquentiel rigide sur des problèmes mal structurés où les représentations diversifiées et le monitoring métacognitif sont critiques. Les traces humaines montrent plus d'abstraction et de traitement conceptuel, tandis que les modèles privilégient l'énumération superficielle. Une méta-analyse de 1 600 articles sur le raisonnement des LLM révèle que la communauté scientifique se concentre sur les éléments facilement quantifiables (organisation séquentielle : 55%, décomposition : 60%) mais néglige les contrôles métacognitifs (conscience de soi : 16%) qui corrèlent avec le succès. Les modèles possèdent des répertoires comportementaux associés au succès mais ne les déploient pas spontanément. En exploitant ces patterns, nous développons un guidage du raisonnement en temps de test qui échafaude automatiquement des structures réussies, améliorant les performances jusqu'à 66,7% sur des problèmes complexes. En établissant un vocabulaire commun entre les sciences cognitives et la recherche sur les LLM, notre cadre permet un diagnostic systématique des échecs de raisonnement et un développement fondé de modèles raisonnant via des mécanismes cognitifs robustes plutôt que des raccourcis fallacieux, tout en fournissant des outils pour tester des théories de la cognition humaine à grande échelle.
English
Large language models (LLMs) solve complex problems yet fail on simpler variants, suggesting they achieve correct outputs through mechanisms fundamentally different from human reasoning. To understand this gap, we synthesize cognitive science research into a taxonomy of 28 cognitive elements spanning reasoning invariants, meta-cognitive controls, representations for organizing reasoning & knowledge, and transformation operations. We introduce a fine-grained evaluation framework and conduct the first large-scale empirical analysis of 192K traces from 18 models across text, vision, and audio, complemented by 54 human think-aloud traces, which we make publicly available. We find that models under-utilize cognitive elements correlated with success, narrowing to rigid sequential processing on ill-structured problems where diverse representations and meta-cognitive monitoring are critical. Human traces show more abstraction and conceptual processing, while models default to surface-level enumeration. Meta-analysis of 1.6K LLM reasoning papers reveals the research community concentrates on easily quantifiable elements (sequential organization: 55%, decomposition: 60%) but neglecting meta-cognitive controls (self-awareness: 16%) that correlate with success. Models possess behavioral repertoires associated with success but fail to deploy them spontaneously. Leveraging these patterns, we develop test-time reasoning guidance that automatically scaffold successful structures, improving performance by up to 66.7% on complex problems. By establishing a shared vocabulary between cognitive science and LLM research, our framework enables systematic diagnosis of reasoning failures and principled development of models that reason through robust cognitive mechanisms rather than spurious shortcuts, while providing tools to test theories of human cognition at scale.