ChatPaper.aiChatPaper

다중 모달 대규모 언어 모델에서 인지적 초월 감지로

Toward Cognitive Supersensing in Multimodal Large Language Model

February 2, 2026
저자: Boyi Li, Yifan Shen, Yuanzhe Liu, Yifan Xu, Jiateng Liu, Xinzhuo Li, Zhengyuan Li, Jingyuan Zhu, Yunhan Zhong, Fangzhou Lan, Jianguo Cao, James M. Rehg, Heng Ji, Ismini Lourentzou, Xu Cao
cs.AI

초록

멀티모달 대규모 언어 모델(MLLM)은 개방형 어휘 인식 과제에서 놀라운 성과를 거두었지만, 시각적 세부 정보가 추상적이고 시각 기억을 필요로 하는 복잡한 인지 문제 해결 능력은 여전히 제한적입니다. 현재의 접근법은 언어만으로는 명확하고 구조화된 추론이 불충분한 경우에도 주로 텍스트 공간에서의 사고 연쇄(CoT) 추론을 확장하는 데 중점을 두며, 인간의 시공간 스케치패드 및 시각 심상과 유사한 시각 추론 메커니즘을 크게 간과하고 있습니다. 이러한 결함을 해결하기 위해 우리는 인지 초감각(Cognitive Supersensing)이라는 새로운 훈련 패러다임을 제안합니다. 이는 시각 인지 잠재 임베딩의 시퀀스를 공동으로 학습하고 답변과 정렬하는 잠재 시각 심상 예측(LVIP) 헤드를 통합하여 MLLM에 인간과 유사한 시각 심상 능력을 부여함으로써 시각 기반 내부 추론 사슬을 형성합니다. 또한 우리는 이 기반이 되는 시각 잠재 공간을 바탕으로 텍스트 추론 경로를 최적화하는 강화 학습 단계를 도입합니다. MLLM의 인지 능력을 평가하기 위해 우리는 5가지 인지 차원을 평가하는 포괄적인 시각 질의응답(VQA) 벤치마크인 CogSense-Bench를 제시합니다. 광범위한 실험을 통해 인지 초감각으로 훈련된 MLLM이 CogSense-Bench에서 최첨단 기준 모델을 크게 능가하며, 도메인 외 수학 및 과학 VQA 벤치마크에서도 우수한 일반화 성능을 보여줌으로써 내부 시각 심상이 인식과 인지 이해 사이의 격차를 해소하는 핵심 요소일 수 있음을 시사합니다. 우리는 CogSense-Bench와 모델 가중치를 오픈소스로 공개할 예정입니다.
English
Multimodal Large Language Models (MLLMs) have achieved remarkable success in open-vocabulary perceptual tasks, yet their ability to solve complex cognitive problems remains limited, especially when visual details are abstract and require visual memory. Current approaches primarily scale Chain-of-Thought (CoT) reasoning in the text space, even when language alone is insufficient for clear and structured reasoning, and largely neglect visual reasoning mechanisms analogous to the human visuospatial sketchpad and visual imagery. To mitigate this deficiency, we introduce Cognitive Supersensing, a novel training paradigm that endows MLLMs with human-like visual imagery capabilities by integrating a Latent Visual Imagery Prediction (LVIP) head that jointly learns sequences of visual cognitive latent embeddings and aligns them with the answer, thereby forming vision-based internal reasoning chains. We further introduce a reinforcement learning stage that optimizes text reasoning paths based on this grounded visual latent. To evaluate the cognitive capabilities of MLLMs, we present CogSense-Bench, a comprehensive visual question answering (VQA) benchmark assessing five cognitive dimensions. Extensive experiments demonstrate that MLLMs trained with Cognitive Supersensing significantly outperform state-of-the-art baselines on CogSense-Bench and exhibit superior generalization on out-of-domain mathematics and science VQA benchmarks, suggesting that internal visual imagery is potentially key to bridging the gap between perceptual recognition and cognitive understanding. We will open-source the CogSense-Bench and our model weights.
PDF162February 7, 2026