Vers une supersensation cognitive dans les modèles de langage de grande taille multimodaux
Toward Cognitive Supersensing in Multimodal Large Language Model
February 2, 2026
papers.authors: Boyi Li, Yifan Shen, Yuanzhe Liu, Yifan Xu, Jiateng Liu, Xinzhuo Li, Zhengyuan Li, Jingyuan Zhu, Yunhan Zhong, Fangzhou Lan, Jianguo Cao, James M. Rehg, Heng Ji, Ismini Lourentzou, Xu Cao
cs.AI
papers.abstract
Les modèles de langage multimodaux (MLLM) ont obtenu un succès remarquable dans les tâches perceptives à vocabulaire ouvert, mais leur capacité à résoudre des problèmes cognitifs complexes reste limitée, particulièrement lorsque les détails visuels sont abstraits et nécessitent une mémoire visuelle. Les approches actuelles augmentent principalement le raisonnement en chaîne de pensées (CoT) dans l'espace textuel, même lorsque le langage seul est insuffisant pour un raisonnement clair et structuré, et négligent largement les mécanismes de raisonnement visuel analogues au calepin visuospatial humain et à l'imagerie mentale visuelle. Pour pallier cette lacune, nous introduisons la Supersensation Cognitive, un nouveau paradigme d'entraînement qui dote les MLLM de capacités d'imagerie visuelle semblables à celles des humains en intégrant une tête de prédiction d'imagerie visuelle latente (LVIP) qui apprend conjointement des séquences d'incorporations latentes visuocognitives et les aligne avec la réponse, formant ainsi des chaînes de raisonnement internes basées sur la vision. Nous introduisons en outre une étape d'apprentissage par renforcement qui optimise les chemins de raisonnement textuel sur la base de ce latent visuel ancré. Pour évaluer les capacités cognitives des MLLM, nous présentons CogSense-Bench, un benchmark complet de question-réponse visuelle (VQA) évaluant cinq dimensions cognitives. Des expériences approfondies démontrent que les MLLM entraînés avec la Supersensation Cognitive surpassent significativement les meilleures méthodes de référence sur CogSense-Bench et présentent une généralisation supérieure sur des benchmarks VQA de mathématiques et sciences hors domaine, suggérant que l'imagerie visuelle interne est potentiellement clé pour combler l'écart entre la reconnaissance perceptive et la compréhension cognitive. Nous ouvrirons en accès libre CogSense-Bench et les poids de notre modèle.
English
Multimodal Large Language Models (MLLMs) have achieved remarkable success in open-vocabulary perceptual tasks, yet their ability to solve complex cognitive problems remains limited, especially when visual details are abstract and require visual memory. Current approaches primarily scale Chain-of-Thought (CoT) reasoning in the text space, even when language alone is insufficient for clear and structured reasoning, and largely neglect visual reasoning mechanisms analogous to the human visuospatial sketchpad and visual imagery. To mitigate this deficiency, we introduce Cognitive Supersensing, a novel training paradigm that endows MLLMs with human-like visual imagery capabilities by integrating a Latent Visual Imagery Prediction (LVIP) head that jointly learns sequences of visual cognitive latent embeddings and aligns them with the answer, thereby forming vision-based internal reasoning chains. We further introduce a reinforcement learning stage that optimizes text reasoning paths based on this grounded visual latent. To evaluate the cognitive capabilities of MLLMs, we present CogSense-Bench, a comprehensive visual question answering (VQA) benchmark assessing five cognitive dimensions. Extensive experiments demonstrate that MLLMs trained with Cognitive Supersensing significantly outperform state-of-the-art baselines on CogSense-Bench and exhibit superior generalization on out-of-domain mathematics and science VQA benchmarks, suggesting that internal visual imagery is potentially key to bridging the gap between perceptual recognition and cognitive understanding. We will open-source the CogSense-Bench and our model weights.