Comment et quoi imaginer ? La pensée visuelle dans les modèles multimodaux unifiés pour le raisonnement spatial inter-vues

Résumé

Le raisonnement spatial inter-vues reste un point faible des modèles vision-langage (VLMs) : ils raisonnent souvent en langage et perdent la géométrie fine nécessaire à la tâche. Penser avec des images vise à résoudre ce problème en générant une image de pensée intermédiaire, mais des travaux récents montrent que les modèles ignorent souvent les preuves visuelles dans ces traces. Nous nous demandons donc comment rendre la pensée visuelle pertinente et quel type de pensée visuelle fonctionne le mieux. Nous étudions ces questions dans des modèles multimodaux unifiés (UMMs), qui supportent nativement la génération entrelacée d’images et de texte. Pour la première question, nous proposons le View Dropout (VDrop), une intervention en phase d’entraînement qui cache des parties d’une vue d’entrée à la portée de la réponse tout en les gardant visibles pour les tokens de l’image de pensée. Cela encourage le modèle à utiliser l’image de pensée pour répondre, au lieu de se fier uniquement aux vues d’entrée. Une fois que l’image de pensée est utilisée pour la prédiction de réponse, nous étudions quel type de pensée visuelle est le plus efficace. Nous cadrons cela comme un compromis entre capacité d’apprentissage et informativité et comparons trois variantes d’images de pensée : les rendus de dessus, panoramiques et par appariement de points. Entraînés sur des scènes synthétiques et évalués sur cinq benchmarks réels hors domaine, la pensée visuelle panoramique avec VDrop est la seule configuration qui soit à la fois informative et apprenable, et elle obtient la meilleure généralisation hors domaine.

English

Cross-view spatial reasoning remains a weak spot for vision-language models (VLMs): they often reason in language and lose the fine-grained geometry needed for the task. Thinking with images aims to address this by generating an intermediate thinking image, but recent work shows that models often ignore the visual evidence in these traces. We therefore ask how to make visual thinking matter, and what kind of visual thinking works best. We study these questions in unified multimodal models (UMMs), which natively support interleaved image-text generation. For the first question, we propose View Dropout (VDrop), a training-time intervention that hides parts of one input view from the answer span while keeping them visible to the thinking-image tokens. This encourages the model to use the thinking image when answering, instead of relying only on the input views. Once the thinking image is used for answer prediction, we study which type of visual thinking is most effective. We frame this as a learnability-informativeness tradeoff and compare three thinking-image variants: top-down, panoramic, and point-matching renderings. Trained on synthetic scenes and evaluated on five real-world out-of-domain benchmarks, panoramic visual thinking with VDrop is the only configuration that is both informative and learnable, and it achieves the best out-of-domain generalization.