ChatPaper.aiChatPaper

WORLDMEM : Simulation du monde à long terme avec mémoire cohérente

WORLDMEM: Long-term Consistent World Simulation with Memory

April 16, 2025
Auteurs: Zeqi Xiao, Yushi Lan, Yifan Zhou, Wenqi Ouyang, Shuai Yang, Yanhong Zeng, Xingang Pan
cs.AI

Résumé

La simulation de mondes a gagné en popularité grâce à sa capacité à modéliser des environnements virtuels et à prédire les conséquences des actions. Cependant, la fenêtre contextuelle temporelle limitée entraîne souvent des échecs dans le maintien de la cohérence à long terme, en particulier dans la préservation de la cohérence spatiale 3D. Dans ce travail, nous présentons WorldMem, un cadre qui améliore la génération de scènes avec une banque de mémoire composée d'unités de mémoire stockant des images de mémoire et des états (par exemple, des poses et des horodatages). En utilisant un mécanisme d'attention de mémoire qui extrait efficacement les informations pertinentes de ces images de mémoire en fonction de leurs états, notre méthode est capable de reconstruire avec précision des scènes précédemment observées, même avec des écarts importants de point de vue ou de temps. De plus, en incorporant des horodatages dans les états, notre cadre modélise non seulement un monde statique mais capture également son évolution dynamique dans le temps, permettant à la fois la perception et l'interaction dans le monde simulé. Des expériences approfondies dans des scénarios virtuels et réels valident l'efficacité de notre approche.
English
World simulation has gained increasing popularity due to its ability to model virtual environments and predict the consequences of actions. However, the limited temporal context window often leads to failures in maintaining long-term consistency, particularly in preserving 3D spatial consistency. In this work, we present WorldMem, a framework that enhances scene generation with a memory bank consisting of memory units that store memory frames and states (e.g., poses and timestamps). By employing a memory attention mechanism that effectively extracts relevant information from these memory frames based on their states, our method is capable of accurately reconstructing previously observed scenes, even under significant viewpoint or temporal gaps. Furthermore, by incorporating timestamps into the states, our framework not only models a static world but also captures its dynamic evolution over time, enabling both perception and interaction within the simulated world. Extensive experiments in both virtual and real scenarios validate the effectiveness of our approach.

Summary

AI-Generated Summary

PDF302April 18, 2025