ChatPaper.aiChatPaper

К когнитивному суперсенсингу в мультимодальных больших языковых моделях

Toward Cognitive Supersensing in Multimodal Large Language Model

February 2, 2026
Авторы: Boyi Li, Yifan Shen, Yuanzhe Liu, Yifan Xu, Jiateng Liu, Xinzhuo Li, Zhengyuan Li, Jingyuan Zhu, Yunhan Zhong, Fangzhou Lan, Jianguo Cao, James M. Rehg, Heng Ji, Ismini Lourentzou, Xu Cao
cs.AI

Аннотация

Мультимодальные большие языковые модели (MБЯМ) достигли значительных успехов в задачах открытого восприятия, однако их способность решать сложные когнитивные задачи остается ограниченной, особенно когда визуальные детали абстрактны и требуют зрительной памяти. Современные подходы в основном масштабируют рассуждения по цепочке мыслей (Chain-of-Thought, CoT) в текстовом пространстве, даже когда одного языка недостаточно для ясного и структурированного мышления, и в значительной степени игнорируют механизмы визуального рассуждения, аналогичные человеческому визуально-пространственному эскизному блокноту и зрительным образам. Чтобы устранить этот недостаток, мы представляем Cognitive Supersensing — новую парадигму обучения, которая наделяет МБЯМ способностями к формированию зрительных образов, подобными человеческим, за счет интеграции головы латентного прогнозирования зрительных образов (Latent Visual Imagery Prediction, LVIP). Эта головка совместно изучает последовательности латентных визуально-когнитивных эмбеддингов и выравнивает их с ответом, формируя тем самым внутренние цепочки рассуждений на основе зрения. Мы также вводим этап обучения с подкреплением, который оптимизирует текстовые пути рассуждений на основе этого обоснованного визуального латентного представления. Для оценки когнитивных способностей МБЯМ мы представляем CogSense-Bench — комплексный бенчмарк для визуального ответа на вопросы (Visual Question Answering, VQA), оценивающий пять когнитивных измерений. Многочисленные эксперименты показывают, что МБЯМ, обученные с помощью Cognitive Supersensing, значительно превосходят современные базовые модели на CogSense-Bench и демонстрируют превосходную способность к обобщению на внешних бенчмарках VQA по математике и естественным наукам, что позволяет предположить, что внутренние зрительные образы потенциально являются ключом к преодолению разрыва между перцептивным распознаванием и когнитивным пониманием. Мы опубликуем в открытом доступе бенчмарк CogSense-Bench и веса нашей модели.
English
Multimodal Large Language Models (MLLMs) have achieved remarkable success in open-vocabulary perceptual tasks, yet their ability to solve complex cognitive problems remains limited, especially when visual details are abstract and require visual memory. Current approaches primarily scale Chain-of-Thought (CoT) reasoning in the text space, even when language alone is insufficient for clear and structured reasoning, and largely neglect visual reasoning mechanisms analogous to the human visuospatial sketchpad and visual imagery. To mitigate this deficiency, we introduce Cognitive Supersensing, a novel training paradigm that endows MLLMs with human-like visual imagery capabilities by integrating a Latent Visual Imagery Prediction (LVIP) head that jointly learns sequences of visual cognitive latent embeddings and aligns them with the answer, thereby forming vision-based internal reasoning chains. We further introduce a reinforcement learning stage that optimizes text reasoning paths based on this grounded visual latent. To evaluate the cognitive capabilities of MLLMs, we present CogSense-Bench, a comprehensive visual question answering (VQA) benchmark assessing five cognitive dimensions. Extensive experiments demonstrate that MLLMs trained with Cognitive Supersensing significantly outperform state-of-the-art baselines on CogSense-Bench and exhibit superior generalization on out-of-domain mathematics and science VQA benchmarks, suggesting that internal visual imagery is potentially key to bridging the gap between perceptual recognition and cognitive understanding. We will open-source the CogSense-Bench and our model weights.
PDF162February 7, 2026