Video4Spatial: Rumo à Inteligência Visuoespacial com Geração de Vídeo Guiada por Contexto

Resumo

Investigamos se os modelos generativos de vídeo podem exibir inteligência visuoespacial, uma capacidade central da cognição humana, usando apenas dados visuais. Para tanto, apresentamos o Video4Spatial, um framework que demonstra que modelos de difusão de vídeo condicionados exclusivamente no contexto cênico baseado em vídeo podem executar tarefas espaciais complexas. Validamos em duas tarefas: navegação em cena - seguir instruções de pose de câmera mantendo consistência com a geometria 3D da cena, e ancoragem de objetos - que requer localização semântica, seguimento de instruções e planejamento. Ambas as tarefas utilizam entradas exclusivamente visuais, sem modalidades auxiliares como profundidade ou poses. Com escolhas de design simples porém eficazes no framework e na curadoria de dados, o Video4Spatial demonstra forte compreensão espacial a partir do contexto de vídeo: ele planeja navegação e ancora objetos-alvo de forma ponta a ponta, segue instruções de pose de câmera mantendo consistência espacial, e generaliza para contextos longos e ambientes fora do domínio. Em conjunto, esses resultados avançam os modelos generativos de vídeo em direção ao raciocínio visuoespacial geral.

English

We investigate whether video generative models can exhibit visuospatial intelligence, a capability central to human cognition, using only visual data. To this end, we present Video4Spatial, a framework showing that video diffusion models conditioned solely on video-based scene context can perform complex spatial tasks. We validate on two tasks: scene navigation - following camera-pose instructions while remaining consistent with 3D geometry of the scene, and object grounding - which requires semantic localization, instruction following, and planning. Both tasks use video-only inputs, without auxiliary modalities such as depth or poses. With simple yet effective design choices in the framework and data curation, Video4Spatial demonstrates strong spatial understanding from video context: it plans navigation and grounds target objects end-to-end, follows camera-pose instructions while maintaining spatial consistency, and generalizes to long contexts and out-of-domain environments. Taken together, these results advance video generative models toward general visuospatial reasoning.

Video4Spatial: Rumo à Inteligência Visuoespacial com Geração de Vídeo Guiada por Contexto

Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation

Resumo

Support