ChatPaper.aiChatPaper

Hin zu kognitivem Supersensing in multimodalen Large Language Models

Toward Cognitive Supersensing in Multimodal Large Language Model

February 2, 2026
papers.authors: Boyi Li, Yifan Shen, Yuanzhe Liu, Yifan Xu, Jiateng Liu, Xinzhuo Li, Zhengyuan Li, Jingyuan Zhu, Yunhan Zhong, Fangzhou Lan, Jianguo Cao, James M. Rehg, Heng Ji, Ismini Lourentzou, Xu Cao
cs.AI

papers.abstract

Multimodale Large Language Models (MLLMs) haben bemerkenswerte Erfolge bei Open-Vocabulary-Wahrnehmungsaufgaben erzielt, doch ihre Fähigkeit, komplexe kognitive Probleme zu lösen, bleibt begrenzt, insbesondere wenn visuelle Details abstrakt sind und visuelles Gedächtnis erfordern. Aktuelle Ansätze skalieren primär das Chain-of-Thought (CoT)-Reasoning im Textraum, selbst wenn Sprache allein für klares und strukturiertes Schlussfolgern unzureichend ist, und vernachlässigen weitgehend visuelle Reasoning-Mechanismen, die dem menschlichen visuell-räumlichen Notizblock und der Visual Imagery analog sind. Um dieses Defizit zu beheben, führen wir Cognitive Supersensing ein, ein neuartiges Trainingsparadigma, das MLLMs menschenähnliche Visual-Imagery-Fähigkeiten verleiht, indem es einen Latent Visual Imagery Prediction (LVIP)-Head integriert. Dieser lernt gemeinsam Sequenzen visuell-kognitiver latenter Einbettungen und richtet sie an der Antwort aus, wodurch visionsbasierte interne Reasoning-Ketten gebildet werden. Wir führen zudem eine Verstärkungslern-Phase ein, die Text-Reasoning-Pfade auf Basis dieses fundierten visuellen Latent-Zustands optimiert. Um die kognitiven Fähigkeiten von MLLMs zu bewerten, präsentieren wir CogSense-Bench, einen umfassenden Benchmark für Visual Question Answering (VQA), der fünf kognitive Dimensionen erfasst. Umfangreiche Experimente zeigen, dass mit Cognitive Supersensing trainierte MLLMs state-of-the-art Baselines auf CogSense-Bench signifikant übertreffen und eine überlegene Generalisierung auf domänenfremden Mathematik- und Science-VQA-Benchmarks aufweisen. Dies legt nahe, dass interne Visual Imagery potenziell der Schlüssel ist, um die Lücke zwischen perzeptiver Erkennung und kognitivem Verständnis zu schließen. Wir werden CogSense-Bench und unsere Modellgewichte open-source verfügbar machen.
English
Multimodal Large Language Models (MLLMs) have achieved remarkable success in open-vocabulary perceptual tasks, yet their ability to solve complex cognitive problems remains limited, especially when visual details are abstract and require visual memory. Current approaches primarily scale Chain-of-Thought (CoT) reasoning in the text space, even when language alone is insufficient for clear and structured reasoning, and largely neglect visual reasoning mechanisms analogous to the human visuospatial sketchpad and visual imagery. To mitigate this deficiency, we introduce Cognitive Supersensing, a novel training paradigm that endows MLLMs with human-like visual imagery capabilities by integrating a Latent Visual Imagery Prediction (LVIP) head that jointly learns sequences of visual cognitive latent embeddings and aligns them with the answer, thereby forming vision-based internal reasoning chains. We further introduce a reinforcement learning stage that optimizes text reasoning paths based on this grounded visual latent. To evaluate the cognitive capabilities of MLLMs, we present CogSense-Bench, a comprehensive visual question answering (VQA) benchmark assessing five cognitive dimensions. Extensive experiments demonstrate that MLLMs trained with Cognitive Supersensing significantly outperform state-of-the-art baselines on CogSense-Bench and exhibit superior generalization on out-of-domain mathematics and science VQA benchmarks, suggesting that internal visual imagery is potentially key to bridging the gap between perceptual recognition and cognitive understanding. We will open-source the CogSense-Bench and our model weights.
PDF162February 7, 2026