ChatPaper.aiChatPaper

WORLDMEM: Simulazione del Mondo a Lungo Termine con Memoria Coerente

WORLDMEM: Long-term Consistent World Simulation with Memory

April 16, 2025
Autori: Zeqi Xiao, Yushi Lan, Yifan Zhou, Wenqi Ouyang, Shuai Yang, Yanhong Zeng, Xingang Pan
cs.AI

Abstract

La simulazione di mondi ha guadagnato crescente popolarità grazie alla sua capacità di modellare ambienti virtuali e prevedere le conseguenze delle azioni. Tuttavia, la finestra temporale di contesto limitata spesso porta a fallimenti nel mantenere una coerenza a lungo termine, in particolare nel preservare la coerenza spaziale 3D. In questo lavoro, presentiamo WorldMem, un framework che migliora la generazione di scene con una banca di memoria composta da unità di memoria che memorizzano frame di memoria e stati (ad esempio, pose e timestamp). Utilizzando un meccanismo di attenzione sulla memoria che estrae efficacemente informazioni rilevanti da questi frame di memoria in base ai loro stati, il nostro metodo è in grado di ricostruire accuratamente scene precedentemente osservate, anche in presenza di significativi divari di punto di vista o temporali. Inoltre, incorporando i timestamp negli stati, il nostro framework non solo modella un mondo statico ma ne cattura anche l'evoluzione dinamica nel tempo, consentendo sia la percezione che l'interazione all'interno del mondo simulato. Esperimenti estensivi in scenari sia virtuali che reali convalidano l'efficacia del nostro approccio.
English
World simulation has gained increasing popularity due to its ability to model virtual environments and predict the consequences of actions. However, the limited temporal context window often leads to failures in maintaining long-term consistency, particularly in preserving 3D spatial consistency. In this work, we present WorldMem, a framework that enhances scene generation with a memory bank consisting of memory units that store memory frames and states (e.g., poses and timestamps). By employing a memory attention mechanism that effectively extracts relevant information from these memory frames based on their states, our method is capable of accurately reconstructing previously observed scenes, even under significant viewpoint or temporal gaps. Furthermore, by incorporating timestamps into the states, our framework not only models a static world but also captures its dynamic evolution over time, enabling both perception and interaction within the simulated world. Extensive experiments in both virtual and real scenarios validate the effectiveness of our approach.

Summary

AI-Generated Summary

PDF302April 18, 2025