ChatPaper.aiChatPaper

WORLDMEM: Langdurig consistente wereldsimulatie met geheugen

WORLDMEM: Long-term Consistent World Simulation with Memory

April 16, 2025
Auteurs: Zeqi Xiao, Yushi Lan, Yifan Zhou, Wenqi Ouyang, Shuai Yang, Yanhong Zeng, Xingang Pan
cs.AI

Samenvatting

Wereldsimulatie heeft steeds meer populariteit gewonnen vanwege het vermogen om virtuele omgevingen te modelleren en de gevolgen van acties te voorspellen. Het beperkte temporele contextvenster leidt echter vaak tot problemen bij het handhaven van langetermijnconsistentie, met name bij het behouden van 3D-ruimtelijke consistentie. In dit werk presenteren we WorldMem, een raamwerk dat scènegeneratie verbetert met een geheugenbank bestaande uit geheugeneenheden die geheugenframes en statussen (bijvoorbeeld poses en tijdstempels) opslaan. Door een geheugenattentiemechanisme te gebruiken dat effectief relevante informatie uit deze geheugenframes haalt op basis van hun statussen, is onze methode in staat om eerder waargenomen scènes nauwkeurig te reconstrueren, zelfs bij aanzienlijke verschillen in gezichtspunt of tijdsintervallen. Bovendien maakt ons raamwerk, door tijdstempels in de statussen op te nemen, niet alleen een statische wereld mogelijk, maar vangt het ook de dynamische evolutie ervan in de tijd, waardoor zowel perceptie als interactie binnen de gesimuleerde wereld mogelijk wordt. Uitgebreide experimenten in zowel virtuele als reële scenario's valideren de effectiviteit van onze aanpak.
English
World simulation has gained increasing popularity due to its ability to model virtual environments and predict the consequences of actions. However, the limited temporal context window often leads to failures in maintaining long-term consistency, particularly in preserving 3D spatial consistency. In this work, we present WorldMem, a framework that enhances scene generation with a memory bank consisting of memory units that store memory frames and states (e.g., poses and timestamps). By employing a memory attention mechanism that effectively extracts relevant information from these memory frames based on their states, our method is capable of accurately reconstructing previously observed scenes, even under significant viewpoint or temporal gaps. Furthermore, by incorporating timestamps into the states, our framework not only models a static world but also captures its dynamic evolution over time, enabling both perception and interaction within the simulated world. Extensive experiments in both virtual and real scenarios validate the effectiveness of our approach.

Summary

AI-Generated Summary

PDF302April 18, 2025