Verso la Supercezione Cognitiva nei Modelli Linguistici Multimodali di Grande Dimensione

Abstract

I Modelli Linguistici Multimodali di Grande Scala (MLLM) hanno ottenuto un notevole successo in compiti percettivi a vocabolario aperto, ma la loro capacità di risolvere problemi cognitivi complessi rimane limitata, specialmente quando i dettagli visivi sono astratti e richiedono memoria visiva. Gli approcci attuali ampliano principalmente il ragionamento a Catena del Pensiero (CoT) nello spazio testuale, anche quando il linguaggio da solo è insufficiente per un ragionamento chiaro e strutturato, e trascurano in larga misura meccanismi di ragionamento visivo analoghi al "taccuino visuospaziale" e all'immaginazione visiva umani. Per ovviare a questa carenza, introduciamo il Cognitive Supersensing, un nuovo paradigma di addestramento che conferisce agli MLLM capacità di immaginazione visiva simili a quelle umane, integrando un modulo di Predizione dell'Immaginazione Visiva Latente (LVIP). Questo modulo impara congiuntamente sequenze di incorporamenti latenti visivi cognitivi e li allinea con la risposta, formando così catene di ragionamento interne basate sulla visione. Introduciamo inoltre una fase di apprendimento per rinforzo che ottimizza i percorsi di ragionamento testuale sulla base di questo latente visivo fondato. Per valutare le capacità cognitive degli MLLM, presentiamo CogSense-Bench, un benchmark completo di risposta a domande visive (VQA) che valuta cinque dimensioni cognitive. Esperimenti estensivi dimostrano che gli MLLM addestrati con Cognitive Supersensing superano significativamente i baseline allo stato dell'arte su CogSense-Bench ed esibiscono una generalizzazione superiore su benchmark VQA di matematica e scienze fuori dominio, suggerendo che l'immaginazione visiva interna è potenzialmente la chiave per colmare il divario tra il riconoscimento percettivo e la comprensione cognitiva. Renderemo open-source CogSense-Bench e i pesi del nostro modello.

English

Multimodal Large Language Models (MLLMs) have achieved remarkable success in open-vocabulary perceptual tasks, yet their ability to solve complex cognitive problems remains limited, especially when visual details are abstract and require visual memory. Current approaches primarily scale Chain-of-Thought (CoT) reasoning in the text space, even when language alone is insufficient for clear and structured reasoning, and largely neglect visual reasoning mechanisms analogous to the human visuospatial sketchpad and visual imagery. To mitigate this deficiency, we introduce Cognitive Supersensing, a novel training paradigm that endows MLLMs with human-like visual imagery capabilities by integrating a Latent Visual Imagery Prediction (LVIP) head that jointly learns sequences of visual cognitive latent embeddings and aligns them with the answer, thereby forming vision-based internal reasoning chains. We further introduce a reinforcement learning stage that optimizes text reasoning paths based on this grounded visual latent. To evaluate the cognitive capabilities of MLLMs, we present CogSense-Bench, a comprehensive visual question answering (VQA) benchmark assessing five cognitive dimensions. Extensive experiments demonstrate that MLLMs trained with Cognitive Supersensing significantly outperform state-of-the-art baselines on CogSense-Bench and exhibit superior generalization on out-of-domain mathematics and science VQA benchmarks, suggesting that internal visual imagery is potentially key to bridging the gap between perceptual recognition and cognitive understanding. We will open-source the CogSense-Bench and our model weights.

Verso la Supercezione Cognitiva nei Modelli Linguistici Multimodali di Grande Dimensione

Toward Cognitive Supersensing in Multimodal Large Language Model

Abstract

Support