ChatPaper.aiChatPaper

잠재 스케치패드: MLLM의 다중 모달 추론 유도를 위한 시각적 사고 스케칭

Latent Sketchpad: Sketching Visual Thoughts to Elicit Multimodal Reasoning in MLLMs

October 28, 2025
저자: Huanyu Zhang, Wenshan Wu, Chengzu Li, Ning Shang, Yan Xia, Yangyu Huang, Yifan Zhang, Li Dong, Zhang Zhang, Liang Wang, Tieniu Tan, Furu Wei
cs.AI

초록

다중 모달 대규모 언어 모델(MLLM)은 시각적 이해에 뛰어난 성능을 보이지만, 시각적 계획과 상상이 필요한 복잡한 시나리오에서는 종종 어려움을 겪습니다. 인간이 아이디어를 발전시키고 전달하기 위한 시각적 사고의 한 형태로 스케치를 활용하는 방식에서 영감을 받아, 우리는 MLLM에 내부 시각적 스케치패드를 제공하는 프레임워크인 Latent Sketchpad를 소개합니다. MLLM의 내부 시각적 표현은 전통적으로 지각적 이해에 국한되어 왔습니다. 우리는 추론 능력을 저해하지 않으면서 생성적 시각적 사고를 지원하도록 이를 재구성했습니다. 최첨단 MLLM을 기반으로 하는 우리의 접근법은 시각 생성을 MLLM의 고유한 자기회귀적 추론 과정에 직접 통합합니다. 이는 모델이 텍스트 추론과 시각적 잠재 변수의 생성을 교차하여 수행할 수 있게 합니다. 이러한 잠재 변수는 내부 사고 과정을 안내하고 해석 가능성을 위해 스케치 이미지로 변환될 수 있습니다. 이를 실현하기 위해 우리는 두 가지 구성 요소를 도입했습니다: 맥락 인식 비전 헤드는 시각적 표현을 자기회귀적으로 생성하고, 사전 학습된 스케치 디코더는 이를 인간이 해석 가능한 이미지로 렌더링합니다. 우리는 새로운 데이터셋인 MazePlanning에서 이 프레임워크를 평가합니다. 다양한 MLLM에 대한 실험 결과, Latent Sketchpad는 해당 백본 모델과 견줄 만하거나 오히려 더 우수한 추론 성능을 제공하는 것으로 나타났습니다. 또한 이 방법은 Gemma3와 Qwen2.5-VL을 포함한 서로 다른 최첨단 MLLM들 간에 일반화됩니다. 모델의 텍스트 추론을 시각적 사고로 확장함으로써, 우리의 프레임워크는 더 풍부한 인간-컴퓨터 상호작용과 더 광범위한 응용 분야에 새로운 기회를 엽니다. 더 자세한 내용과 자료는 우리 프로젝트 페이지에서 확인할 수 있습니다: https://latent-sketchpad.github.io/.
English
While Multimodal Large Language Models (MLLMs) excel at visual understanding, they often struggle in complex scenarios that require visual planning and imagination. Inspired by how humans use sketching as a form of visual thinking to develop and communicate ideas, we introduce Latent Sketchpad, a framework that equips MLLMs with an internal visual scratchpad. The internal visual representations of MLLMs have traditionally been confined to perceptual understanding. We repurpose them to support generative visual thought without compromising reasoning ability. Building on frontier MLLMs, our approach integrates visual generation directly into their native autoregressive reasoning process. It allows the model to interleave textual reasoning with the generation of visual latents. These latents guide the internal thought process and can be translated into sketch images for interpretability. To realize this, we introduce two components: a Context-Aware Vision Head autoregressively produces visual representations, and a pretrained Sketch Decoder renders these into human-interpretable images. We evaluate the framework on our new dataset MazePlanning. Experiments across various MLLMs show that Latent Sketchpad delivers comparable or even superior reasoning performance to their backbone. It further generalizes across distinct frontier MLLMs, including Gemma3 and Qwen2.5-VL. By extending model's textual reasoning to visual thinking, our framework opens new opportunities for richer human-computer interaction and broader applications. More details and resources are available on our project page: https://latent-sketchpad.github.io/.
PDF201December 1, 2025