マルチモーダル大規模言語モデルにおける認知超感覚への展開
Toward Cognitive Supersensing in Multimodal Large Language Model
February 2, 2026
著者: Boyi Li, Yifan Shen, Yuanzhe Liu, Yifan Xu, Jiateng Liu, Xinzhuo Li, Zhengyuan Li, Jingyuan Zhu, Yunhan Zhong, Fangzhou Lan, Jianguo Cao, James M. Rehg, Heng Ji, Ismini Lourentzou, Xu Cao
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)はオープン語彙の知覚タスクで顕著な成功を収めているが、視覚的詳細が抽象的で視覚記憶を必要とする複雑な認知問題の解決能力は依然として限られている。現在のアプローチは、言語のみでは明確で構造化された推論が不十分な場合でも、主にテキスト空間における連鎖的思考(CoT)推論のスケーリングに注力し、人間の視空間スケッチパッドや視覚的イメージに類似した視覚推論メカニズムをほぼ無視している。この欠点を補うため、我々はCognitive Supersensingを提案する。これは視覚認知潜在埋め込みの系列を共同で学習し、回答と整合させることで視覚ベースの内的推論連鎖を形成するLatent Visual Imagery Prediction(LVIP)ヘッドを統合し、MLLMに人間のような視覚的イメージ能力を付与する新しい訓練パラダイムである。さらに、この接地された視覚潜在に基づいてテキスト推論経路を最適化する強化学習段階を導入する。MLLMの認知能力を評価するため、5つの認知次元を評価する包括的な視覚質問応答(VQA)ベンチマークであるCogSense-Benchを提案する。大規模な実験により、Cognitive Supersensingで訓練されたMLLMがCogSense-Benchで最先端のベースラインを大幅に上回り、ドメイン外の数学・科学VQAベンチマークで優れた一般化性能を示すことが実証された。これは内的視覚的イメージが知覚的認識と認知的理解の間の隔たりを埋める鍵となり得ることを示唆している。CogSense-Benchとモデル重みは公開予定である。
English
Multimodal Large Language Models (MLLMs) have achieved remarkable success in open-vocabulary perceptual tasks, yet their ability to solve complex cognitive problems remains limited, especially when visual details are abstract and require visual memory. Current approaches primarily scale Chain-of-Thought (CoT) reasoning in the text space, even when language alone is insufficient for clear and structured reasoning, and largely neglect visual reasoning mechanisms analogous to the human visuospatial sketchpad and visual imagery. To mitigate this deficiency, we introduce Cognitive Supersensing, a novel training paradigm that endows MLLMs with human-like visual imagery capabilities by integrating a Latent Visual Imagery Prediction (LVIP) head that jointly learns sequences of visual cognitive latent embeddings and aligns them with the answer, thereby forming vision-based internal reasoning chains. We further introduce a reinforcement learning stage that optimizes text reasoning paths based on this grounded visual latent. To evaluate the cognitive capabilities of MLLMs, we present CogSense-Bench, a comprehensive visual question answering (VQA) benchmark assessing five cognitive dimensions. Extensive experiments demonstrate that MLLMs trained with Cognitive Supersensing significantly outperform state-of-the-art baselines on CogSense-Bench and exhibit superior generalization on out-of-domain mathematics and science VQA benchmarks, suggesting that internal visual imagery is potentially key to bridging the gap between perceptual recognition and cognitive understanding. We will open-source the CogSense-Bench and our model weights.