Fundações Cognitivas para o Raciocínio e Sua Manifestação em LLMs
Cognitive Foundations for Reasoning and Their Manifestation in LLMs
November 20, 2025
Autores: Priyanka Kargupta, Shuyue Stella Li, Haocheng Wang, Jinu Lee, Shan Chen, Orevaoghene Ahia, Dean Light, Thomas L. Griffiths, Max Kleiman-Weiner, Jiawei Han, Asli Celikyilmaz, Yulia Tsvetkov
cs.AI
Resumo
Os modelos de linguagem de grande escala (LLMs) resolvem problemas complexos, mas falham em variantes mais simples, sugerindo que alcançam resultados corretos por meio de mecanismos fundamentalmente diferentes do raciocínio humano. Para compreender esta lacuna, sintetizamos pesquisas da ciência cognitiva numa taxonomia de 28 elementos cognitivos, abrangendo invariantes de raciocínio, controlos metacognitivos, representações para organizar o raciocínio e o conhecimento, e operações de transformação. Introduzimos um quadro de avaliação de granularidade fina e conduzimos a primeira análise empírica em larga escala de 192 mil *traces* (registos de processo) de 18 modelos através de texto, visão e áudio, complementada por 54 *traces* de protocolos verbais humanos, que disponibilizamos publicamente. Concluímos que os modelos subutilizam elementos cognitivos correlacionados com o sucesso, restringindo-se a um processamento sequencial rígido em problemas mal estruturados, onde representações diversificadas e monitorização metacognitiva são críticas. Os *traces* humanos mostram mais abstração e processamento conceptual, enquanto os modelos recorrem por padrão a enumeração superficial. Uma meta-análise de 1.600 artigos sobre raciocínio em LLMs revela que a comunidade de investigação se concentra em elementos facilmente quantificáveis (organização sequencial: 55%, decomposição: 60%), mas negligencia os controlos metacognitivos (autoconsciência: 16%) que se correlacionam com o sucesso. Os modelos possuem repertórios comportamentais associados ao sucesso, mas falham em implantá-los espontaneamente. Aproveitando estes padrões, desenvolvemos uma orientação de raciocínio em tempo de teste que estrutura automaticamente as estruturas de sucesso, melhorando o desempenho em até 66,7% em problemas complexos. Ao estabelecer uma linguagem comum entre a ciência cognitiva e a investigação em LLMs, o nosso quadro permite um diagnóstico sistemático de falhas de raciocínio e o desenvolvimento fundamentado de modelos que raciocinam através de mecanismos cognitivos robustos, em vez de atalhos espúrios, fornecendo simultaneamente ferramentas para testar teorias da cognição humana em larga escala.
English
Large language models (LLMs) solve complex problems yet fail on simpler variants, suggesting they achieve correct outputs through mechanisms fundamentally different from human reasoning. To understand this gap, we synthesize cognitive science research into a taxonomy of 28 cognitive elements spanning reasoning invariants, meta-cognitive controls, representations for organizing reasoning & knowledge, and transformation operations. We introduce a fine-grained evaluation framework and conduct the first large-scale empirical analysis of 192K traces from 18 models across text, vision, and audio, complemented by 54 human think-aloud traces, which we make publicly available. We find that models under-utilize cognitive elements correlated with success, narrowing to rigid sequential processing on ill-structured problems where diverse representations and meta-cognitive monitoring are critical. Human traces show more abstraction and conceptual processing, while models default to surface-level enumeration. Meta-analysis of 1.6K LLM reasoning papers reveals the research community concentrates on easily quantifiable elements (sequential organization: 55%, decomposition: 60%) but neglecting meta-cognitive controls (self-awareness: 16%) that correlate with success. Models possess behavioral repertoires associated with success but fail to deploy them spontaneously. Leveraging these patterns, we develop test-time reasoning guidance that automatically scaffold successful structures, improving performance by up to 66.7% on complex problems. By establishing a shared vocabulary between cognitive science and LLM research, our framework enables systematic diagnosis of reasoning failures and principled development of models that reason through robust cognitive mechanisms rather than spurious shortcuts, while providing tools to test theories of human cognition at scale.