ChatPaper.aiChatPaper

MindJourney: Escalado en Tiempo de Prueba con Modelos del Mundo para Razonamiento Espacial

MindJourney: Test-Time Scaling with World Models for Spatial Reasoning

July 16, 2025
Autores: Yuncong Yang, Jiageng Liu, Zheyuan Zhang, Siyuan Zhou, Reuben Tan, Jianwei Yang, Yilun Du, Chuang Gan
cs.AI

Resumen

El razonamiento espacial en un espacio 3D es fundamental para la cognición humana e indispensable para tareas encarnadas como la navegación y la manipulación. Sin embargo, los modelos de visión y lenguaje (VLMs) de última generación suelen tener dificultades con tareas tan simples como anticipar cómo se verá una escena después de un movimiento egocéntrico: perciben imágenes en 2D pero carecen de un modelo interno de dinámica 3D. Por ello, proponemos MindJourney, un marco de escalado en tiempo de prueba que dota a un VLM de esta capacidad faltante al acoplarlo a un modelo de mundo controlable basado en difusión de video. El VLM esboza iterativamente una trayectoria de cámara concisa, mientras que el modelo de mundo sintetiza la vista correspondiente en cada paso. Luego, el VLM razona sobre esta evidencia multivista recopilada durante la exploración interactiva. Sin necesidad de ajuste fino, nuestro MindJourney logra un aumento promedio de más del 8% en el punto de referencia representativo de razonamiento espacial SAT, demostrando que combinar VLMs con modelos de mundo para el escalado en tiempo de prueba ofrece una ruta simple y plug-and-play hacia un razonamiento 3D robusto. Además, nuestro método también mejora la inferencia en tiempo de prueba de VLMs entrenados mediante aprendizaje por refuerzo, lo que demuestra el potencial de nuestro método que utiliza modelos de mundo para el escalado en tiempo de prueba.
English
Spatial reasoning in 3D space is central to human cognition and indispensable for embodied tasks such as navigation and manipulation. However, state-of-the-art vision-language models (VLMs) struggle frequently with tasks as simple as anticipating how a scene will look after an egocentric motion: they perceive 2D images but lack an internal model of 3D dynamics. We therefore propose MindJourney, a test-time scaling framework that grants a VLM with this missing capability by coupling it to a controllable world model based on video diffusion. The VLM iteratively sketches a concise camera trajectory, while the world model synthesizes the corresponding view at each step. The VLM then reasons over this multi-view evidence gathered during the interactive exploration. Without any fine-tuning, our MindJourney achieves over an average 8% performance boost on the representative spatial reasoning benchmark SAT, showing that pairing VLMs with world models for test-time scaling offers a simple, plug-and-play route to robust 3D reasoning. Meanwhile, our method also improves upon the test-time inference VLMs trained through reinforcement learning, which demonstrates the potential of our method that utilizes world models for test-time scaling.
PDF141July 18, 2025