Op weg naar cognitieve supersensoring in multimodale grote taalmodellen

Samenvatting

Multimodale Large Language Models (MLLM's) hebben opmerkelijke successen geboekt bij open-vocabularium perceptuele taken, maar hun vermogen om complexe cognitieve problemen op te lossen blijft beperkt, vooral wanneer visuele details abstract zijn en visueel geheugen vereisen. Huidige benaderingen schalen voornamelijk Chain-of-Thought (CoT) redenering op in de tekstruimte, zelfs wanneer taal alleen onvoldoende is voor heldere en gestructureerde redenering, en verwaarlozen grotendeels visuele redeneermechanismen die analoog zijn aan het menselijke visueel-ruimtelijke kladblok en visuele verbeelding. Om dit tekort te verhelpen, introduceren we Cognitive Supersensing, een nieuwe trainingsparadigma dat MLLM's voorziet van mensachtige visuele verbeelding door integratie van een Latent Visual Imagery Prediction (LVIP)-head. Deze leert gezamenlijk sequenties van visueel-cognitieve latente embeddings en aligneert deze met het antwoord, waardoor op visie gebaseerde interne redeneerketens worden gevormd. We introduceren verder een reinforcement learning-fase die tekstredeneerpaden optimaliseert op basis van deze gegronde visuele latent. Om de cognitieve capaciteiten van MLLM's te evalueren, presenteren we CogSense-Bench, een uitgebreide visuele vraag-antwoord (VQA) benchmark die vijf cognitieve dimensies beoordeelt. Uitgebreide experimenten tonen aan dat MLLM's getraind met Cognitive Supersensing aanzienlijk beter presteren dan state-of-the-art basismodellen op CogSense-Bench en superieure generalisatie vertonen op out-of-domain wiskunde- en wetenschaps-VQA benchmarks. Dit suggereert dat interne visuele verbeelding mogelijk de sleutel is om de kloof tussen perceptuele herkenning en cognitief begrip te overbruggen. We zullen CogSense-Bench en onze modelgewichten open source maken.

English

Multimodal Large Language Models (MLLMs) have achieved remarkable success in open-vocabulary perceptual tasks, yet their ability to solve complex cognitive problems remains limited, especially when visual details are abstract and require visual memory. Current approaches primarily scale Chain-of-Thought (CoT) reasoning in the text space, even when language alone is insufficient for clear and structured reasoning, and largely neglect visual reasoning mechanisms analogous to the human visuospatial sketchpad and visual imagery. To mitigate this deficiency, we introduce Cognitive Supersensing, a novel training paradigm that endows MLLMs with human-like visual imagery capabilities by integrating a Latent Visual Imagery Prediction (LVIP) head that jointly learns sequences of visual cognitive latent embeddings and aligns them with the answer, thereby forming vision-based internal reasoning chains. We further introduce a reinforcement learning stage that optimizes text reasoning paths based on this grounded visual latent. To evaluate the cognitive capabilities of MLLMs, we present CogSense-Bench, a comprehensive visual question answering (VQA) benchmark assessing five cognitive dimensions. Extensive experiments demonstrate that MLLMs trained with Cognitive Supersensing significantly outperform state-of-the-art baselines on CogSense-Bench and exhibit superior generalization on out-of-domain mathematics and science VQA benchmarks, suggesting that internal visual imagery is potentially key to bridging the gap between perceptual recognition and cognitive understanding. We will open-source the CogSense-Bench and our model weights.

Op weg naar cognitieve supersensoring in multimodale grote taalmodellen

Toward Cognitive Supersensing in Multimodal Large Language Model

Samenvatting

Support