潜在スケッチパッド:MLLMにおけるマルチモーダル推論を引き出す視覚的思考のスケッチ
Latent Sketchpad: Sketching Visual Thoughts to Elicit Multimodal Reasoning in MLLMs
October 28, 2025
著者: Huanyu Zhang, Wenshan Wu, Chengzu Li, Ning Shang, Yan Xia, Yangyu Huang, Yifan Zhang, Li Dong, Zhang Zhang, Liang Wang, Tieniu Tan, Furu Wei
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)は視覚的理解において優れた性能を発揮するが、視覚的計画と想像力を必要とする複雑なシナリオではしばしば困難に直面する。本研究では、人間がアイデアを発展させ伝達するための視覚的思考手段としてスケッチを活用する方法に着想を得て、MLLMに内部的な視覚的スクラッチパッドを装備するフレームワーク「Latent Sketchpad」を提案する。従来のMLLMの内部視覚表現は知覚的理解に限定される傾向があったが、我々は推論能力を損なうことなく生成的視覚思考を支援するようにその役割を再定義する。先進的なMLLMを基盤として、視覚生成をその本来の自己回帰的推論プロセスに直接統合するアプローチを採用する。これにより、モデルはテキストによる推論と視覚的潜在変数の生成を交互に行うことが可能となる。これらの潜在変数は内部思考プロセスを導くとともに、解釈可能性のためにスケッチ画像へ変換可能である。これを実現するため、コンテキストを意識したビジョンヘッドが視覚表現を自己回帰的に生成し、事前学習済みスケッチデコーダがこれを人間が解釈可能な画像にレンダリングする二つのコンポーネントを導入した。新たに構築したデータセットMazePlanningを用いた評価では、Latent Sketchpadが基盤モデルと同等あるいはそれを上回る推論性能を発揮することが各種MLLMにおける実験で示された。さらに、Gemma3やQwen2.5-VLを含む異なる先進MLLM間での汎化性を確認した。モデルのテキスト推論を視覚的思考に拡張する本フレームワークは、より豊かな人間とコンピュータの相互作用と幅広い応用への新たな可能性を開くものである。詳細と関連リソースはプロジェクトページ(https://latent-sketchpad.github.io/)で公開している。
English
While Multimodal Large Language Models (MLLMs) excel at visual understanding,
they often struggle in complex scenarios that require visual planning and
imagination. Inspired by how humans use sketching as a form of visual thinking
to develop and communicate ideas, we introduce Latent Sketchpad, a framework
that equips MLLMs with an internal visual scratchpad. The internal visual
representations of MLLMs have traditionally been confined to perceptual
understanding. We repurpose them to support generative visual thought without
compromising reasoning ability. Building on frontier MLLMs, our approach
integrates visual generation directly into their native autoregressive
reasoning process. It allows the model to interleave textual reasoning with the
generation of visual latents. These latents guide the internal thought process
and can be translated into sketch images for interpretability. To realize this,
we introduce two components: a Context-Aware Vision Head autoregressively
produces visual representations, and a pretrained Sketch Decoder renders these
into human-interpretable images. We evaluate the framework on our new dataset
MazePlanning. Experiments across various MLLMs show that Latent Sketchpad
delivers comparable or even superior reasoning performance to their backbone.
It further generalizes across distinct frontier MLLMs, including Gemma3 and
Qwen2.5-VL. By extending model's textual reasoning to visual thinking, our
framework opens new opportunities for richer human-computer interaction and
broader applications. More details and resources are available on our project
page: https://latent-sketchpad.github.io/.