Latent Schetsblok: Het Schetsen van Visuele Gedachten om Multimodale Redenering in MMLM's op te Wekken
Latent Sketchpad: Sketching Visual Thoughts to Elicit Multimodal Reasoning in MLLMs
October 28, 2025
Auteurs: Huanyu Zhang, Wenshan Wu, Chengzu Li, Ning Shang, Yan Xia, Yangyu Huang, Yifan Zhang, Li Dong, Zhang Zhang, Liang Wang, Tieniu Tan, Furu Wei
cs.AI
Samenvatting
Hoewel Multimodale Large Language Models (MLLM's) uitblinken in visueel begrip, hebben ze vaak moeite met complexe scenario's die visuele planning en verbeeldingskracht vereisen. Geïnspireerd door hoe mensen schetsen gebruiken als een vorm van visueel denken om ideeën te ontwikkelen en te communiceren, introduceren we Latent Sketchpad, een raamwerk dat MLLM's uitrust met een intern visueel kladblok. De interne visuele representaties van MLLM's waren traditioneel beperkt tot perceptueel begrip. Wij herpositioneren ze om generatief visueel denken te ondersteunen zonder de redeneercapaciteit aan te tasten. Voortbordurend op frontier MLLM's integreert onze aanpak visuele generatie direct in hun inherente autoregressieve denkproces. Hierdoor kan het model tekstueel redeneren afwisselen met het genereren van visuele latenties. Deze latenties sturen het interne denkproces en kunnen worden vertaald naar schetsafbeeldingen voor interpreteerbaarheid. Om dit te realiseren, introduceren we twee componenten: een Context-Aware Vision Head produceert autoregressief visuele representaties, en een vooraf getrainde Sketch Decoder zet deze om naar voor mensen interpreteerbare afbeeldingen. We evalueren het raamwerk op onze nieuwe dataset MazePlanning. Experimenten met diverse MLLM's tonen aan dat Latent Sketchpad een vergelijkbare of zelfs superieure redeneerprestatie levert vergeleken met hun backbone. Het generaliseert verder over verschillende frontier MLLM's, waaronder Gemma3 en Qwen2.5-VL. Door het tekstuele redeneervermogen van het model uit te breiden naar visueel denken, opent ons raamwerk nieuwe mogelijkheden voor rijkere mens-computerinteractie en bredere toepassingen. Meer details en bronnen zijn beschikbaar op onze projectpagina: https://latent-sketchpad.github.io/.
English
While Multimodal Large Language Models (MLLMs) excel at visual understanding,
they often struggle in complex scenarios that require visual planning and
imagination. Inspired by how humans use sketching as a form of visual thinking
to develop and communicate ideas, we introduce Latent Sketchpad, a framework
that equips MLLMs with an internal visual scratchpad. The internal visual
representations of MLLMs have traditionally been confined to perceptual
understanding. We repurpose them to support generative visual thought without
compromising reasoning ability. Building on frontier MLLMs, our approach
integrates visual generation directly into their native autoregressive
reasoning process. It allows the model to interleave textual reasoning with the
generation of visual latents. These latents guide the internal thought process
and can be translated into sketch images for interpretability. To realize this,
we introduce two components: a Context-Aware Vision Head autoregressively
produces visual representations, and a pretrained Sketch Decoder renders these
into human-interpretable images. We evaluate the framework on our new dataset
MazePlanning. Experiments across various MLLMs show that Latent Sketchpad
delivers comparable or even superior reasoning performance to their backbone.
It further generalizes across distinct frontier MLLMs, including Gemma3 and
Qwen2.5-VL. By extending model's textual reasoning to visual thinking, our
framework opens new opportunities for richer human-computer interaction and
broader applications. More details and resources are available on our project
page: https://latent-sketchpad.github.io/.