¿Cómo y qué imaginar? Pensamiento visual en modelos multimodales unificados para el razonamiento espacial entre vistas.

Resumen

El razonamiento espacial entre vistas sigue siendo un punto débil para los modelos de lenguaje visual (VLMs): a menudo razonan en lenguaje y pierden la geometría detallada necesaria para la tarea. Pensar con imágenes pretende abordar esto generando una imagen de pensamiento intermedia, pero trabajos recientes muestran que los modelos suelen ignorar la evidencia visual en estas trazas. Por lo tanto, nos preguntamos cómo hacer que el pensamiento visual sea relevante y qué tipo de pensamiento visual funciona mejor. Estudiamos estas cuestiones en modelos multimodales unificados (UMMs), que soportan de forma nativa la generación intercalada de imágenes y texto. Para la primera pregunta, proponemos View Dropout (VDrop), una intervención durante el entrenamiento que oculta partes de una vista de entrada del segmento de respuesta mientras las mantiene visibles para los tokens de la imagen de pensamiento. Esto fomenta que el modelo utilice la imagen de pensamiento al responder, en lugar de depender únicamente de las vistas de entrada. Una vez que la imagen de pensamiento se emplea para la predicción de la respuesta, estudiamos qué tipo de pensamiento visual es más efectivo. Enmarcamos esto como un equilibrio entre capacidad de aprendizaje e informatividad, y comparamos tres variantes de imagen de pensamiento: representaciones de arriba hacia abajo, panorámicas y de coincidencia de puntos. Entrenado en escenas sintéticas y evaluado en cinco conjuntos de referencia del mundo real fuera del dominio, el pensamiento visual panorámico con VDrop es la única configuración que es tanto informativa como aprendible, y logra la mejor generalización fuera del dominio.

English

Cross-view spatial reasoning remains a weak spot for vision-language models (VLMs): they often reason in language and lose the fine-grained geometry needed for the task. Thinking with images aims to address this by generating an intermediate thinking image, but recent work shows that models often ignore the visual evidence in these traces. We therefore ask how to make visual thinking matter, and what kind of visual thinking works best. We study these questions in unified multimodal models (UMMs), which natively support interleaved image-text generation. For the first question, we propose View Dropout (VDrop), a training-time intervention that hides parts of one input view from the answer span while keeping them visible to the thinking-image tokens. This encourages the model to use the thinking image when answering, instead of relying only on the input views. Once the thinking image is used for answer prediction, we study which type of visual thinking is most effective. We frame this as a learnability-informativeness tradeoff and compare three thinking-image variants: top-down, panoramic, and point-matching renderings. Trained on synthetic scenes and evaluated on five real-world out-of-domain benchmarks, panoramic visual thinking with VDrop is the only configuration that is both informative and learnable, and it achieves the best out-of-domain generalization.