Hoe en wat te verbeelden? Visueel denken in uniforme multimodale modellen voor cross-view ruimtelijk redeneren.

Samenvatting

Ruimtelijk redeneren over verschillende aanzichten blijft een zwak punt voor vision-language-modellen (VLM's): ze redeneren vaak in taal en verliezen de fijnmazige geometrie die nodig is voor de taak. Denken met afbeeldingen probeert dit aan te pakken door een tussenliggende denkafbeelding te genereren, maar recent werk laat zien dat modellen het visuele bewijs in deze sporen vaak negeren. Daarom vragen we ons af hoe we visueel denken relevant kunnen maken en welke vorm van visueel denken het beste werkt. We bestuderen deze vragen in unified multimodale modellen (UMM's), die van nature ondersteuning bieden voor afgewisselde beeld-tekstgeneratie. Voor de eerste vraag stellen we View Dropout (VDrop) voor, een interventie tijdens de training die delen van één invoeraanzicht verbergt voor het antwoordenbereik, terwijl ze zichtbaar blijven voor de denkbeeld-tokens. Dit stimuleert het model om de denkafbeelding te gebruiken bij het beantwoorden, in plaats van alleen te vertrouwen op de invoerbeelden. Zodra de denkafbeelding wordt gebruikt voor het voorspellen van antwoorden, bestuderen we welk type visueel denken het meest effectief is. We framen dit als een afweging tussen leerbaarheid en informatieve waarde en vergelijken drie varianten van denkafbeeldingen: top-down, panoramische en punt-matching weergaven. Getraind op synthetische scènes en geëvalueerd op vijf echte out-of-domain benchmarks, is panoramisch visueel denken met VDrop de enige configuratie die zowel informatief als leerbaar is, en het bereikt de beste out-of-domain generalisatie.

English

Cross-view spatial reasoning remains a weak spot for vision-language models (VLMs): they often reason in language and lose the fine-grained geometry needed for the task. Thinking with images aims to address this by generating an intermediate thinking image, but recent work shows that models often ignore the visual evidence in these traces. We therefore ask how to make visual thinking matter, and what kind of visual thinking works best. We study these questions in unified multimodal models (UMMs), which natively support interleaved image-text generation. For the first question, we propose View Dropout (VDrop), a training-time intervention that hides parts of one input view from the answer span while keeping them visible to the thinking-image tokens. This encourages the model to use the thinking image when answering, instead of relying only on the input views. Once the thinking image is used for answer prediction, we study which type of visual thinking is most effective. We frame this as a learnability-informativeness tradeoff and compare three thinking-image variants: top-down, panoramic, and point-matching renderings. Trained on synthetic scenes and evaluated on five real-world out-of-domain benchmarks, panoramic visual thinking with VDrop is the only configuration that is both informative and learnable, and it achieves the best out-of-domain generalization.