Fondamenti Cognitivi del Ragionamento e Loro Manifestazione nei Modelli Linguistici di Grande Dimensione
Cognitive Foundations for Reasoning and Their Manifestation in LLMs
November 20, 2025
Autori: Priyanka Kargupta, Shuyue Stella Li, Haocheng Wang, Jinu Lee, Shan Chen, Orevaoghene Ahia, Dean Light, Thomas L. Griffiths, Max Kleiman-Weiner, Jiawei Han, Asli Celikyilmaz, Yulia Tsvetkov
cs.AI
Abstract
I grandi modelli linguistici (LLM) risolvono problemi complessi ma falliscono su varianti più semplici, suggerendo che ottengano output corretti attraverso meccanismi fondamentalmente diversi dal ragionamento umano. Per comprendere questo divario, sintetizziamo la ricerca in scienze cognitive in una tassonomia di 28 elementi cognitivi che abbracciano invarianti di ragionamento, controlli meta-cognitivi, rappresentazioni per organizzare il ragionamento e la conoscenza, e operazioni di trasformazione. Introduciamo un framework di valutazione granulare e conduciamo la prima analisi empirica su larga scala di 192.000 tracce provenienti da 18 modelli attraverso testo, visione e audio, integrata da 54 tracce umane di pensiero ad alta voce, che rendiamo pubblicamente disponibili. Troviamo che i modelli sottoutilizzano elementi cognitivi correlati con il successo, restringendosi a una elaborazione sequenziale rigida su problemi mal strutturati dove rappresentazioni diversificate e il monitoraggio meta-cognitivo sono critici. Le tracce umane mostrano più astrazione ed elaborazione concettuale, mentre i modelli ricadono su enumerazioni superficiali. Una meta-analisi di 1.600 articoli sul ragionamento degli LLM rivela che la comunità di ricerca si concentra su elementi facilmente quantificabili (organizzazione sequenziale: 55%, scomposizione: 60%) ma trascura i controlli meta-cognitivi (auto-consapevolezza: 16%) che correlano con il successo. I modelli possiedono repertori comportamentali associati al successo ma non li impiegano spontaneamente. Sfruttando questi pattern, sviluppiamo una guida al ragionamento *al momento del test* che impalca automaticamente strutture di successo, migliorando le prestazioni fino al 66,7% su problemi complessi. Stabilendo un vocabolario condiviso tra scienze cognitive e ricerca sugli LLM, il nostro framework consente la diagnosi sistematica dei fallimenti di ragionamento e lo sviluppo principiato di modelli che ragionano attraverso meccanismi cognitivi robusti piuttosto che scorciatoie spurie, fornendo al contempo strumenti per testare teorie della cognizione umana su larga scala.
English
Large language models (LLMs) solve complex problems yet fail on simpler variants, suggesting they achieve correct outputs through mechanisms fundamentally different from human reasoning. To understand this gap, we synthesize cognitive science research into a taxonomy of 28 cognitive elements spanning reasoning invariants, meta-cognitive controls, representations for organizing reasoning & knowledge, and transformation operations. We introduce a fine-grained evaluation framework and conduct the first large-scale empirical analysis of 192K traces from 18 models across text, vision, and audio, complemented by 54 human think-aloud traces, which we make publicly available. We find that models under-utilize cognitive elements correlated with success, narrowing to rigid sequential processing on ill-structured problems where diverse representations and meta-cognitive monitoring are critical. Human traces show more abstraction and conceptual processing, while models default to surface-level enumeration. Meta-analysis of 1.6K LLM reasoning papers reveals the research community concentrates on easily quantifiable elements (sequential organization: 55%, decomposition: 60%) but neglecting meta-cognitive controls (self-awareness: 16%) that correlate with success. Models possess behavioral repertoires associated with success but fail to deploy them spontaneously. Leveraging these patterns, we develop test-time reasoning guidance that automatically scaffold successful structures, improving performance by up to 66.7% on complex problems. By establishing a shared vocabulary between cognitive science and LLM research, our framework enables systematic diagnosis of reasoning failures and principled development of models that reason through robust cognitive mechanisms rather than spurious shortcuts, while providing tools to test theories of human cognition at scale.