Modelos de Mundo de Video con Memoria Espacial a Largo Plazo
Video World Models with Long-term Spatial Memory
June 5, 2025
Autores: Tong Wu, Shuai Yang, Ryan Po, Yinghao Xu, Ziwei Liu, Dahua Lin, Gordon Wetzstein
cs.AI
Resumen
Los modelos emergentes de mundos generan autoregresivamente fotogramas de video en respuesta a acciones, como movimientos de cámara y prompts de texto, entre otras señales de control. Debido al tamaño limitado de las ventanas de contexto temporal, estos modelos a menudo tienen dificultades para mantener la coherencia de la escena durante las revisiones, lo que lleva a un olvido severo de los entornos previamente generados. Inspirados por los mecanismos de la memoria humana, introducimos un marco novedoso para mejorar la coherencia a largo plazo de los modelos de mundos de video mediante una memoria espacial a largo plazo basada en geometría. Nuestro marco incluye mecanismos para almacenar y recuperar información de la memoria espacial a largo plazo, y hemos creado conjuntos de datos personalizados para entrenar y evaluar modelos de mundos con mecanismos de memoria 3D explícitamente almacenados. Nuestras evaluaciones muestran una mejora en la calidad, coherencia y longitud del contexto en comparación con líneas de base relevantes, allanando el camino hacia la generación de mundos con coherencia a largo plazo.
English
Emerging world models autoregressively generate video frames in response to
actions, such as camera movements and text prompts, among other control
signals. Due to limited temporal context window sizes, these models often
struggle to maintain scene consistency during revisits, leading to severe
forgetting of previously generated environments. Inspired by the mechanisms of
human memory, we introduce a novel framework to enhancing long-term consistency
of video world models through a geometry-grounded long-term spatial memory. Our
framework includes mechanisms to store and retrieve information from the
long-term spatial memory and we curate custom datasets to train and evaluate
world models with explicitly stored 3D memory mechanisms. Our evaluations show
improved quality, consistency, and context length compared to relevant
baselines, paving the way towards long-term consistent world generation.