ChatPaper.aiChatPaper

Fundamentos Cognitivos del Razonamiento y su Manifestación en los LLM

Cognitive Foundations for Reasoning and Their Manifestation in LLMs

November 20, 2025
Autores: Priyanka Kargupta, Shuyue Stella Li, Haocheng Wang, Jinu Lee, Shan Chen, Orevaoghene Ahia, Dean Light, Thomas L. Griffiths, Max Kleiman-Weiner, Jiawei Han, Asli Celikyilmaz, Yulia Tsvetkov
cs.AI

Resumen

Los modelos de lenguaje grandes (LLM) resuelven problemas complejos pero fallan en variantes más simples, lo que sugiere que obtienen respuestas correctas mediante mecanismos fundamentalmente distintos al razonamiento humano. Para comprender esta brecha, sintetizamos investigaciones de la ciencia cognitiva en una taxonomía de 28 elementos cognitivos que abarcan invariantes de razonamiento, controles metacognitivos, representaciones para organizar el razonamiento y el conocimiento, y operaciones de transformación. Introducimos un marco de evaluación granular y realizamos el primer análisis empírico a gran escala de 192.000 trazas de 18 modelos a través de texto, visión y audio, complementado con 54 trazas de pensamiento en voz alta de humanos, que ponemos a disposición del público. Encontramos que los modelos subutilizan elementos cognitivos correlacionados con el éxito, reduciéndose a un procesamiento secuencial rígido en problemas mal estructurados donde son críticas las representaciones diversas y la monitorización metacognitiva. Las trazas humanas muestran más abstracción y procesamiento conceptual, mientras que los modelos recurren por defecto a una enumeración superficial. Un meta-análisis de 1.600 artículos sobre razonamiento en LLM revela que la comunidad investigadora se concentra en elementos fácilmente cuantificables (organización secuencial: 55%, descomposición: 60%) pero descuida los controles metacognitivos (autoconciencia: 16%) que se correlacionan con el éxito. Los modelos poseen repertorios conductuales asociados al éxito pero no los despliegan espontáneamente. Aprovechando estos patrones, desarrollamos una guía de razonamiento en tiempo de prueba que estructura automáticamente andamiajes exitosos, mejorando el rendimiento hasta en un 66,7% en problemas complejos. Al establecer un vocabulario común entre la ciencia cognitiva y la investigación en LLM, nuestro marco permite el diagnóstico sistemático de fallos de razonamiento y el desarrollo fundamentado de modelos que razonen mediante mecanismos cognitivos robustos en lugar de atajos espurios, a la vez que proporciona herramientas para probar teorías de la cognición humana a escala.
English
Large language models (LLMs) solve complex problems yet fail on simpler variants, suggesting they achieve correct outputs through mechanisms fundamentally different from human reasoning. To understand this gap, we synthesize cognitive science research into a taxonomy of 28 cognitive elements spanning reasoning invariants, meta-cognitive controls, representations for organizing reasoning & knowledge, and transformation operations. We introduce a fine-grained evaluation framework and conduct the first large-scale empirical analysis of 192K traces from 18 models across text, vision, and audio, complemented by 54 human think-aloud traces, which we make publicly available. We find that models under-utilize cognitive elements correlated with success, narrowing to rigid sequential processing on ill-structured problems where diverse representations and meta-cognitive monitoring are critical. Human traces show more abstraction and conceptual processing, while models default to surface-level enumeration. Meta-analysis of 1.6K LLM reasoning papers reveals the research community concentrates on easily quantifiable elements (sequential organization: 55%, decomposition: 60%) but neglecting meta-cognitive controls (self-awareness: 16%) that correlate with success. Models possess behavioral repertoires associated with success but fail to deploy them spontaneously. Leveraging these patterns, we develop test-time reasoning guidance that automatically scaffold successful structures, improving performance by up to 66.7% on complex problems. By establishing a shared vocabulary between cognitive science and LLM research, our framework enables systematic diagnosis of reasoning failures and principled development of models that reason through robust cognitive mechanisms rather than spurious shortcuts, while providing tools to test theories of human cognition at scale.
PDF83December 1, 2025