ChatPaper.aiChatPaper

WORLDMEM: Simulación de mundos con consistencia a largo plazo mediante memoria

WORLDMEM: Long-term Consistent World Simulation with Memory

April 16, 2025
Autores: Zeqi Xiao, Yushi Lan, Yifan Zhou, Wenqi Ouyang, Shuai Yang, Yanhong Zeng, Xingang Pan
cs.AI

Resumen

La simulación de mundos ha ganado creciente popularidad debido a su capacidad para modelar entornos virtuales y predecir las consecuencias de las acciones. Sin embargo, la ventana de contexto temporal limitada a menudo conduce a fallos en el mantenimiento de la consistencia a largo plazo, particularmente en la preservación de la consistencia espacial 3D. En este trabajo, presentamos WorldMem, un marco que mejora la generación de escenas con un banco de memoria compuesto por unidades de memoria que almacenan marcos de memoria y estados (por ejemplo, poses y marcas de tiempo). Al emplear un mecanismo de atención de memoria que extrae eficazmente información relevante de estos marcos de memoria en función de sus estados, nuestro método es capaz de reconstruir con precisión escenas previamente observadas, incluso bajo brechas significativas de perspectiva o temporal. Además, al incorporar marcas de tiempo en los estados, nuestro marco no solo modela un mundo estático, sino que también captura su evolución dinámica a lo largo del tiempo, permitiendo tanto la percepción como la interacción dentro del mundo simulado. Experimentos extensos en escenarios tanto virtuales como reales validan la efectividad de nuestro enfoque.
English
World simulation has gained increasing popularity due to its ability to model virtual environments and predict the consequences of actions. However, the limited temporal context window often leads to failures in maintaining long-term consistency, particularly in preserving 3D spatial consistency. In this work, we present WorldMem, a framework that enhances scene generation with a memory bank consisting of memory units that store memory frames and states (e.g., poses and timestamps). By employing a memory attention mechanism that effectively extracts relevant information from these memory frames based on their states, our method is capable of accurately reconstructing previously observed scenes, even under significant viewpoint or temporal gaps. Furthermore, by incorporating timestamps into the states, our framework not only models a static world but also captures its dynamic evolution over time, enabling both perception and interaction within the simulated world. Extensive experiments in both virtual and real scenarios validate the effectiveness of our approach.

Summary

AI-Generated Summary

PDF302April 18, 2025