WORLDMEM: Langzeitkonsistente Weltsimulation mit Gedächtnis

papers.abstract

Die Simulation von Welten hat aufgrund ihrer Fähigkeit, virtuelle Umgebungen zu modellieren und die Konsequenzen von Handlungen vorherzusagen, zunehmend an Popularität gewonnen. Allerdings führt das begrenzte zeitliche Kontextfenster oft zu Fehlern bei der Aufrechterhaltung langfristiger Konsistenz, insbesondere bei der Bewahrung der 3D-Raumkonsistenz. In dieser Arbeit stellen wir WorldMem vor, ein Framework, das die Szenengenerierung durch eine Speicherbank verbessert, die aus Speichereinheiten besteht, die Speicherframes und Zustände (z.B. Posen und Zeitstempel) speichern. Durch den Einsatz eines Speicher-Aufmerksamkeitsmechanismus, der relevante Informationen aus diesen Speicherframes basierend auf ihren Zuständen effektiv extrahiert, ist unsere Methode in der Lage, zuvor beobachtete Szenen auch bei signifikanten Blickwinkel- oder zeitlichen Abständen präzise zu rekonstruieren. Darüber hinaus ermöglicht die Einbindung von Zeitstempeln in die Zustände, dass unser Framework nicht nur eine statische Welt modelliert, sondern auch deren dynamische Entwicklung über die Zeit erfasst, wodurch sowohl Wahrnehmung als auch Interaktion innerhalb der simulierten Welt ermöglicht werden. Umfangreiche Experimente in virtuellen und realen Szenarien bestätigen die Wirksamkeit unseres Ansatzes.

English

World simulation has gained increasing popularity due to its ability to model virtual environments and predict the consequences of actions. However, the limited temporal context window often leads to failures in maintaining long-term consistency, particularly in preserving 3D spatial consistency. In this work, we present WorldMem, a framework that enhances scene generation with a memory bank consisting of memory units that store memory frames and states (e.g., poses and timestamps). By employing a memory attention mechanism that effectively extracts relevant information from these memory frames based on their states, our method is capable of accurately reconstructing previously observed scenes, even under significant viewpoint or temporal gaps. Furthermore, by incorporating timestamps into the states, our framework not only models a static world but also captures its dynamic evolution over time, enabling both perception and interaction within the simulated world. Extensive experiments in both virtual and real scenarios validate the effectiveness of our approach.

WORLDMEM: Langzeitkonsistente Weltsimulation mit Gedächtnis

WORLDMEM: Long-term Consistent World Simulation with Memory

papers.abstract

Support