Wie und was vorstellen? Visuelles Denken in vereinheitlichten multimodalen Modellen für ansichtsübergreifendes räumliches Schließen

Zusammenfassung

Das ansichtsübergreifende räumliche Denken bleibt eine Schwachstelle von Vision-Language-Modellen (VLMs): Sie argumentieren oft sprachlich und verlieren dabei die für die Aufgabe erforderliche feinkörnige Geometrie. Das Denken mit Bildern zielt darauf ab, dieses Problem zu lösen, indem ein intermediäres Denkbild erzeugt wird, doch neuere Arbeiten zeigen, dass Modelle die visuellen Hinweise in diesen Spuren oft ignorieren. Daher fragen wir, wie man visuelles Denken relevant machen kann und welche Art von visuellem Denken am besten funktioniert. Wir untersuchen diese Fragen in Unified Multimodal Models (UMMs), die nativ die verschachtelte Erzeugung von Bildern und Text unterstützen. Für die erste Frage schlagen wir View Dropout (VDrop) vor, einen Trainingseingriff, der Teile einer Eingabeansicht vor dem Antwortbereich verbirgt, sie aber für die Denkbild-Tokens sichtbar lässt. Dies ermutigt das Modell, bei der Antwort das Denkbild zu verwenden, anstatt sich nur auf die Eingabeansichten zu verlassen. Sobald das Denkbild für die Antwortvorhersage verwendet wird, untersuchen wir, welche Art von visuellem Denken am effektivsten ist. Wir betrachten dies als eine Abwägung zwischen Erlernbarkeit und Informativität und vergleichen drei Denkbild-Varianten: Top-Down-, Panorama- und Point-Matching-Darstellungen. Trainiert auf synthetischen Szenen und evaluiert auf fünf realen Out-of-Domain-Benchmarks, ist das panoramische visuelle Denken mit VDrop die einzige Konfiguration, die sowohl informativ als auch erlernbar ist, und erzielt die beste Out-of-Domain-Generalisierung.

English

Cross-view spatial reasoning remains a weak spot for vision-language models (VLMs): they often reason in language and lose the fine-grained geometry needed for the task. Thinking with images aims to address this by generating an intermediate thinking image, but recent work shows that models often ignore the visual evidence in these traces. We therefore ask how to make visual thinking matter, and what kind of visual thinking works best. We study these questions in unified multimodal models (UMMs), which natively support interleaved image-text generation. For the first question, we propose View Dropout (VDrop), a training-time intervention that hides parts of one input view from the answer span while keeping them visible to the thinking-image tokens. This encourages the model to use the thinking image when answering, instead of relying only on the input views. Once the thinking image is used for answer prediction, we study which type of visual thinking is most effective. We frame this as a learnability-informativeness tradeoff and compare three thinking-image variants: top-down, panoramic, and point-matching renderings. Trained on synthetic scenes and evaluated on five real-world out-of-domain benchmarks, panoramic visual thinking with VDrop is the only configuration that is both informative and learnable, and it achieves the best out-of-domain generalization.