MindJourney: Escalonamento em Tempo de Teste com Modelos de Mundo para Raciocínio Espacial
MindJourney: Test-Time Scaling with World Models for Spatial Reasoning
July 16, 2025
Autores: Yuncong Yang, Jiageng Liu, Zheyuan Zhang, Siyuan Zhou, Reuben Tan, Jianwei Yang, Yilun Du, Chuang Gan
cs.AI
Resumo
O raciocínio espacial em 3D é central para a cognição humana e indispensável para tarefas corporificadas, como navegação e manipulação. No entanto, os modelos estado da arte de visão e linguagem (VLMs) frequentemente enfrentam dificuldades em tarefas tão simples quanto prever como uma cena parecerá após um movimento egocêntrico: eles percebem imagens 2D, mas carecem de um modelo interno de dinâmica 3D. Portanto, propomos o MindJourney, uma estrutura de escalonamento em tempo de teste que confere a um VLM essa capacidade ausente, acoplando-o a um modelo de mundo controlável baseado em difusão de vídeo. O VLM esboça iterativamente uma trajetória concisa da câmera, enquanto o modelo de mundo sintetiza a visão correspondente em cada etapa. O VLM então raciocina sobre essa evidência multiview coletada durante a exploração interativa. Sem qualquer ajuste fino, nosso MindJourney alcança um aumento médio de mais de 8% no benchmark representativo de raciocínio espacial SAT, mostrando que o emparelhamento de VLMs com modelos de mundo para escalonamento em tempo de teste oferece uma rota simples e plug-and-play para um raciocínio 3D robusto. Enquanto isso, nosso método também melhora a inferência em tempo de teste de VLMs treinados por aprendizado por reforço, o que demonstra o potencial de nosso método que utiliza modelos de mundo para escalonamento em tempo de teste.
English
Spatial reasoning in 3D space is central to human cognition and indispensable
for embodied tasks such as navigation and manipulation. However,
state-of-the-art vision-language models (VLMs) struggle frequently with tasks
as simple as anticipating how a scene will look after an egocentric motion:
they perceive 2D images but lack an internal model of 3D dynamics. We therefore
propose MindJourney, a test-time scaling framework that grants a VLM with this
missing capability by coupling it to a controllable world model based on video
diffusion. The VLM iteratively sketches a concise camera trajectory, while the
world model synthesizes the corresponding view at each step. The VLM then
reasons over this multi-view evidence gathered during the interactive
exploration. Without any fine-tuning, our MindJourney achieves over an average
8% performance boost on the representative spatial reasoning benchmark SAT,
showing that pairing VLMs with world models for test-time scaling offers a
simple, plug-and-play route to robust 3D reasoning. Meanwhile, our method also
improves upon the test-time inference VLMs trained through reinforcement
learning, which demonstrates the potential of our method that utilizes world
models for test-time scaling.