VMem: Generación Consistente de Escenas de Video Interactivo con Memoria de Vistas Indexada por Surfels
VMem: Consistent Interactive Video Scene Generation with Surfel-Indexed View Memory
June 23, 2025
Autores: Runjia Li, Philip Torr, Andrea Vedaldi, Tomas Jakab
cs.AI
Resumen
Proponemos un novedoso mecanismo de memoria para construir generadores de video que puedan explorar entornos de manera interactiva. Resultados similares se han logrado previamente mediante la técnica de "out-painting" de vistas 2D de la escena mientras se reconstruye incrementalmente su geometría 3D, lo que acumula errores rápidamente, o mediante generadores de video con una ventana de contexto corta, que tienen dificultades para mantener la coherencia de la escena a largo plazo. Para abordar estas limitaciones, introducimos Surfel-Indexed View Memory (VMem), un mecanismo que recuerda vistas pasadas indexándolas geométricamente en función de los elementos de superficie 3D (surfels) que han observado. VMem permite la recuperación eficiente de las vistas pasadas más relevantes al generar nuevas vistas. Al centrarse únicamente en estas vistas relevantes, nuestro método produce exploraciones consistentes de entornos imaginados con una fracción del costo computacional de utilizar todas las vistas pasadas como contexto. Evaluamos nuestro enfoque en benchmarks desafiantes de síntesis de escenas a largo plazo y demostramos un rendimiento superior en comparación con los métodos existentes en términos de mantener la coherencia de la escena y el control de la cámara.
English
We propose a novel memory mechanism to build video generators that can
explore environments interactively. Similar results have previously been
achieved by out-painting 2D views of the scene while incrementally
reconstructing its 3D geometry, which quickly accumulates errors, or by video
generators with a short context window, which struggle to maintain scene
coherence over the long term. To address these limitations, we introduce
Surfel-Indexed View Memory (VMem), a mechanism that remembers past views by
indexing them geometrically based on the 3D surface elements (surfels) they
have observed. VMem enables the efficient retrieval of the most relevant past
views when generating new ones. By focusing only on these relevant views, our
method produces consistent explorations of imagined environments at a fraction
of the computational cost of using all past views as context. We evaluate our
approach on challenging long-term scene synthesis benchmarks and demonstrate
superior performance compared to existing methods in maintaining scene
coherence and camera control.