Rumo à Supersensibilização Cognitiva em Modelos de Linguagem Multimodais de Grande Escala

Resumo

Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) alcançaram sucesso notável em tarefas perceptivas de vocabulário aberto, mas sua capacidade de resolver problemas cognitivos complexos permanece limitada, especialmente quando os detalhes visuais são abstratos e exigem memória visual. As abordagens atuais priorizam principalmente a escalonamento do raciocínio em cadeia (Chain-of-Thought, CoT) no espaço textual, mesmo quando a linguagem por si só é insuficiente para um raciocínio claro e estruturado, e negligenciam em grande parte mecanismos de raciocínio visual análogos à *sketchpad* visuoespacial e à imagética visual humana. Para mitigar esta deficiência, introduzimos a Superssensação Cognitiva, um novo paradigma de treinamento que confere aos MLLMs capacidades de imagética visual semelhantes às humanas, integrando um módulo de Predição de Imagética Visual Latente (LVIP) que aprende conjuntamente sequências de *embeddings* latentes visuais cognitivos e os alinha com a resposta, formando assim cadeias de raciocínio internas baseadas na visão. Introduzimos ainda uma fase de aprendizagem por reforço que otimiza os caminhos de raciocínio textual com base neste latente visual fundamentado. Para avaliar as capacidades cognitivas dos MLLMs, apresentamos o CogSense-Bench, um benchmark abrangente de resposta a perguntas visuais (VQA) que avalia cinco dimensões cognitivas. Experimentos extensivos demonstram que os MLLMs treinados com Superssensação Cognitiva superam significativamente os *baselines* state-of-the-art no CogSense-Bench e exibem generalização superior em *benchmarks* VQA de matemática e ciências fora do domínio, sugerindo que a imagética visual interna é potencialmente a chave para preencher a lacuna entre o reconhecimento perceptivo e a compreensão cognitiva. Disponibilizaremos publicamente o CogSense-Bench e os pesos do nosso modelo.

English

Multimodal Large Language Models (MLLMs) have achieved remarkable success in open-vocabulary perceptual tasks, yet their ability to solve complex cognitive problems remains limited, especially when visual details are abstract and require visual memory. Current approaches primarily scale Chain-of-Thought (CoT) reasoning in the text space, even when language alone is insufficient for clear and structured reasoning, and largely neglect visual reasoning mechanisms analogous to the human visuospatial sketchpad and visual imagery. To mitigate this deficiency, we introduce Cognitive Supersensing, a novel training paradigm that endows MLLMs with human-like visual imagery capabilities by integrating a Latent Visual Imagery Prediction (LVIP) head that jointly learns sequences of visual cognitive latent embeddings and aligns them with the answer, thereby forming vision-based internal reasoning chains. We further introduce a reinforcement learning stage that optimizes text reasoning paths based on this grounded visual latent. To evaluate the cognitive capabilities of MLLMs, we present CogSense-Bench, a comprehensive visual question answering (VQA) benchmark assessing five cognitive dimensions. Extensive experiments demonstrate that MLLMs trained with Cognitive Supersensing significantly outperform state-of-the-art baselines on CogSense-Bench and exhibit superior generalization on out-of-domain mathematics and science VQA benchmarks, suggesting that internal visual imagery is potentially key to bridging the gap between perceptual recognition and cognitive understanding. We will open-source the CogSense-Bench and our model weights.

Rumo à Supersensibilização Cognitiva em Modelos de Linguagem Multimodais de Grande Escala

Toward Cognitive Supersensing in Multimodal Large Language Model

Resumo

Support