Video World Models met Langetermijn Ruimtelijk Geheugen
Video World Models with Long-term Spatial Memory
June 5, 2025
Auteurs: Tong Wu, Shuai Yang, Ryan Po, Yinghao Xu, Ziwei Liu, Dahua Lin, Gordon Wetzstein
cs.AI
Samenvatting
Opkomende wereldmodellen genereren autoregressief videobeelden als reactie op
acties, zoals camerabewegingen en tekstprompts, naast andere besturingssignalen.
Door beperkte tijdelijke contextvensterformaten hebben deze modellen vaak
moeite om scèneconsistentie te behouden tijdens herbezoeken, wat leidt tot ernstig
vergeten van eerder gegenereerde omgevingen. Geïnspireerd door de mechanismen van
het menselijk geheugen introduceren we een nieuw raamwerk om de langetermijnconsistentie
van videowereldmodellen te verbeteren door middel van een geometrie-gebaseerd
langetermijnruimtelijk geheugen. Ons raamwerk omvat mechanismen om informatie op te slaan
en op te halen uit het langetermijnruimtelijk geheugen, en we hebben aangepaste datasets
samengesteld om wereldmodellen te trainen en te evalueren met expliciet opgeslagen
3D-geheugenmechanismen. Onze evaluaties tonen verbeterde kwaliteit, consistentie en
contextlengte in vergelijking met relevante referentiemodellen, wat de weg vrijmaakt
voor langetermijnconsistente wereldgeneratie.
English
Emerging world models autoregressively generate video frames in response to
actions, such as camera movements and text prompts, among other control
signals. Due to limited temporal context window sizes, these models often
struggle to maintain scene consistency during revisits, leading to severe
forgetting of previously generated environments. Inspired by the mechanisms of
human memory, we introduce a novel framework to enhancing long-term consistency
of video world models through a geometry-grounded long-term spatial memory. Our
framework includes mechanisms to store and retrieve information from the
long-term spatial memory and we curate custom datasets to train and evaluate
world models with explicitly stored 3D memory mechanisms. Our evaluations show
improved quality, consistency, and context length compared to relevant
baselines, paving the way towards long-term consistent world generation.