ChatPaper.aiChatPaper

Latent Schetsblok: Het Schetsen van Visuele Gedachten om Multimodale Redenering in MMLM's op te Wekken

Latent Sketchpad: Sketching Visual Thoughts to Elicit Multimodal Reasoning in MLLMs

October 28, 2025
Auteurs: Huanyu Zhang, Wenshan Wu, Chengzu Li, Ning Shang, Yan Xia, Yangyu Huang, Yifan Zhang, Li Dong, Zhang Zhang, Liang Wang, Tieniu Tan, Furu Wei
cs.AI

Samenvatting

Hoewel Multimodale Large Language Models (MLLM's) uitblinken in visueel begrip, hebben ze vaak moeite met complexe scenario's die visuele planning en verbeeldingskracht vereisen. Geïnspireerd door hoe mensen schetsen gebruiken als een vorm van visueel denken om ideeën te ontwikkelen en te communiceren, introduceren we Latent Sketchpad, een raamwerk dat MLLM's uitrust met een intern visueel kladblok. De interne visuele representaties van MLLM's waren traditioneel beperkt tot perceptueel begrip. Wij herpositioneren ze om generatief visueel denken te ondersteunen zonder de redeneercapaciteit aan te tasten. Voortbordurend op frontier MLLM's integreert onze aanpak visuele generatie direct in hun inherente autoregressieve denkproces. Hierdoor kan het model tekstueel redeneren afwisselen met het genereren van visuele latenties. Deze latenties sturen het interne denkproces en kunnen worden vertaald naar schetsafbeeldingen voor interpreteerbaarheid. Om dit te realiseren, introduceren we twee componenten: een Context-Aware Vision Head produceert autoregressief visuele representaties, en een vooraf getrainde Sketch Decoder zet deze om naar voor mensen interpreteerbare afbeeldingen. We evalueren het raamwerk op onze nieuwe dataset MazePlanning. Experimenten met diverse MLLM's tonen aan dat Latent Sketchpad een vergelijkbare of zelfs superieure redeneerprestatie levert vergeleken met hun backbone. Het generaliseert verder over verschillende frontier MLLM's, waaronder Gemma3 en Qwen2.5-VL. Door het tekstuele redeneervermogen van het model uit te breiden naar visueel denken, opent ons raamwerk nieuwe mogelijkheden voor rijkere mens-computerinteractie en bredere toepassingen. Meer details en bronnen zijn beschikbaar op onze projectpagina: https://latent-sketchpad.github.io/.
English
While Multimodal Large Language Models (MLLMs) excel at visual understanding, they often struggle in complex scenarios that require visual planning and imagination. Inspired by how humans use sketching as a form of visual thinking to develop and communicate ideas, we introduce Latent Sketchpad, a framework that equips MLLMs with an internal visual scratchpad. The internal visual representations of MLLMs have traditionally been confined to perceptual understanding. We repurpose them to support generative visual thought without compromising reasoning ability. Building on frontier MLLMs, our approach integrates visual generation directly into their native autoregressive reasoning process. It allows the model to interleave textual reasoning with the generation of visual latents. These latents guide the internal thought process and can be translated into sketch images for interpretability. To realize this, we introduce two components: a Context-Aware Vision Head autoregressively produces visual representations, and a pretrained Sketch Decoder renders these into human-interpretable images. We evaluate the framework on our new dataset MazePlanning. Experiments across various MLLMs show that Latent Sketchpad delivers comparable or even superior reasoning performance to their backbone. It further generalizes across distinct frontier MLLMs, including Gemma3 and Qwen2.5-VL. By extending model's textual reasoning to visual thinking, our framework opens new opportunities for richer human-computer interaction and broader applications. More details and resources are available on our project page: https://latent-sketchpad.github.io/.
PDF201December 1, 2025