ChatPaper.aiChatPaper

Hacia la supersensación cognitiva en modelos de lenguaje grande multimodal

Toward Cognitive Supersensing in Multimodal Large Language Model

February 2, 2026
Autores: Boyi Li, Yifan Shen, Yuanzhe Liu, Yifan Xu, Jiateng Liu, Xinzhuo Li, Zhengyuan Li, Jingyuan Zhu, Yunhan Zhong, Fangzhou Lan, Jianguo Cao, James M. Rehg, Heng Ji, Ismini Lourentzou, Xu Cao
cs.AI

Resumen

Los Modelos de Lenguaje Grandes Multimodales (MLLMs) han logrado un éxito notable en tareas perceptivas de vocabulario abierto, pero su capacidad para resolver problemas cognitivos complejos sigue siendo limitada, especialmente cuando los detalles visuales son abstractos y requieren memoria visual. Los enfoques actuales principalmente amplían el razonamiento en Cadena de Pensamiento (CoT) en el espacio textual, incluso cuando el lenguaje por sí solo es insuficiente para un razonamiento claro y estructurado, y en gran medida descuidan los mecanismos de razonamiento visual análogos al bloc de notas visoespacial y a la imaginería visual humanos. Para mitigar esta deficiencia, introducimos Cognitive Supersensing, un paradigma de entrenamiento novedoso que dota a los MLLMs de capacidades de imaginería visual similares a las humanas mediante la integración de un cabezal de Predicción de Imaginería Visual Latente (LVIP) que aprende conjuntamente secuencias de embeddings latentes cognitivos visuales y los alinea con la respuesta, formando así cadenas de razonamiento internas basadas en la visión. Además, introducimos una etapa de aprendizaje por refuerzo que optimiza las trayectorias de razonamiento textual basándose en este latente visual fundamentado. Para evaluar las capacidades cognitivas de los MLLMs, presentamos CogSense-Bench, un benchmark integral de respuesta a preguntas visuales (VQA) que evalúa cinco dimensiones cognitivas. Experimentos exhaustivos demuestran que los MLLMs entrenados con Cognitive Supersensing superan significativamente a los baselines de última generación en CogSense-Bench y exhiben una generalización superior en benchmarks VQA de matemáticas y ciencias fuera de dominio, lo que sugiere que la imaginería visual interna es potencialmente clave para cerrar la brecha entre el reconocimiento perceptivo y la comprensión cognitiva. Liberaremos el código de CogSense-Bench y los pesos de nuestro modelo como código abierto.
English
Multimodal Large Language Models (MLLMs) have achieved remarkable success in open-vocabulary perceptual tasks, yet their ability to solve complex cognitive problems remains limited, especially when visual details are abstract and require visual memory. Current approaches primarily scale Chain-of-Thought (CoT) reasoning in the text space, even when language alone is insufficient for clear and structured reasoning, and largely neglect visual reasoning mechanisms analogous to the human visuospatial sketchpad and visual imagery. To mitigate this deficiency, we introduce Cognitive Supersensing, a novel training paradigm that endows MLLMs with human-like visual imagery capabilities by integrating a Latent Visual Imagery Prediction (LVIP) head that jointly learns sequences of visual cognitive latent embeddings and aligns them with the answer, thereby forming vision-based internal reasoning chains. We further introduce a reinforcement learning stage that optimizes text reasoning paths based on this grounded visual latent. To evaluate the cognitive capabilities of MLLMs, we present CogSense-Bench, a comprehensive visual question answering (VQA) benchmark assessing five cognitive dimensions. Extensive experiments demonstrate that MLLMs trained with Cognitive Supersensing significantly outperform state-of-the-art baselines on CogSense-Bench and exhibit superior generalization on out-of-domain mathematics and science VQA benchmarks, suggesting that internal visual imagery is potentially key to bridging the gap between perceptual recognition and cognitive understanding. We will open-source the CogSense-Bench and our model weights.
PDF162February 7, 2026