ChatPaper.aiChatPaper

WORLDMEM: Долгосрочное согласованное моделирование мира с использованием памяти

WORLDMEM: Long-term Consistent World Simulation with Memory

April 16, 2025
Авторы: Zeqi Xiao, Yushi Lan, Yifan Zhou, Wenqi Ouyang, Shuai Yang, Yanhong Zeng, Xingang Pan
cs.AI

Аннотация

Моделирование миров приобретает все большую популярность благодаря своей способности создавать виртуальные среды и предсказывать последствия действий. Однако ограниченное временное окно контекста часто приводит к сбоям в поддержании долгосрочной согласованности, особенно в сохранении 3D-пространственной целостности. В данной работе мы представляем WorldMem — фреймворк, который улучшает генерацию сцен с помощью банка памяти, состоящего из блоков памяти, хранящих кадры и состояния (например, позы и временные метки). Используя механизм внимания к памяти, который эффективно извлекает релевантную информацию из этих кадров на основе их состояний, наш метод способен точно восстанавливать ранее наблюдаемые сцены, даже при значительных изменениях точки обзора или временных промежутках. Более того, включение временных меток в состояния позволяет нашему фреймворку не только моделировать статичный мир, но и фиксировать его динамическую эволюцию во времени, обеспечивая как восприятие, так и взаимодействие в смоделированном мире. Многочисленные эксперименты в виртуальных и реальных сценариях подтверждают эффективность нашего подхода.
English
World simulation has gained increasing popularity due to its ability to model virtual environments and predict the consequences of actions. However, the limited temporal context window often leads to failures in maintaining long-term consistency, particularly in preserving 3D spatial consistency. In this work, we present WorldMem, a framework that enhances scene generation with a memory bank consisting of memory units that store memory frames and states (e.g., poses and timestamps). By employing a memory attention mechanism that effectively extracts relevant information from these memory frames based on their states, our method is capable of accurately reconstructing previously observed scenes, even under significant viewpoint or temporal gaps. Furthermore, by incorporating timestamps into the states, our framework not only models a static world but also captures its dynamic evolution over time, enabling both perception and interaction within the simulated world. Extensive experiments in both virtual and real scenarios validate the effectiveness of our approach.

Summary

AI-Generated Summary

PDF302April 18, 2025