ChatPaper.aiChatPaper

WORLDMEM: Simulação de Mundo Consistente em Longo Prazo com Memória

WORLDMEM: Long-term Consistent World Simulation with Memory

April 16, 2025
Autores: Zeqi Xiao, Yushi Lan, Yifan Zhou, Wenqi Ouyang, Shuai Yang, Yanhong Zeng, Xingang Pan
cs.AI

Resumo

A simulação de mundos tem ganhado popularidade crescente devido à sua capacidade de modelar ambientes virtuais e prever as consequências de ações. No entanto, a janela de contexto temporal limitada frequentemente leva a falhas na manutenção da consistência de longo prazo, especialmente na preservação da consistência espacial 3D. Neste trabalho, apresentamos o WorldMem, um framework que aprimora a geração de cenas com um banco de memória composto por unidades de memória que armazenam quadros de memória e estados (por exemplo, poses e timestamps). Ao empregar um mecanismo de atenção de memória que extrai efetivamente informações relevantes desses quadros de memória com base em seus estados, nosso método é capaz de reconstruir com precisão cenas previamente observadas, mesmo sob grandes variações de perspectiva ou intervalos temporais. Além disso, ao incorporar timestamps nos estados, nosso framework não apenas modela um mundo estático, mas também captura sua evolução dinâmica ao longo do tempo, permitindo tanto a percepção quanto a interação dentro do mundo simulado. Experimentos extensivos em cenários virtuais e reais validam a eficácia da nossa abordagem.
English
World simulation has gained increasing popularity due to its ability to model virtual environments and predict the consequences of actions. However, the limited temporal context window often leads to failures in maintaining long-term consistency, particularly in preserving 3D spatial consistency. In this work, we present WorldMem, a framework that enhances scene generation with a memory bank consisting of memory units that store memory frames and states (e.g., poses and timestamps). By employing a memory attention mechanism that effectively extracts relevant information from these memory frames based on their states, our method is capable of accurately reconstructing previously observed scenes, even under significant viewpoint or temporal gaps. Furthermore, by incorporating timestamps into the states, our framework not only models a static world but also captures its dynamic evolution over time, enabling both perception and interaction within the simulated world. Extensive experiments in both virtual and real scenarios validate the effectiveness of our approach.

Summary

AI-Generated Summary

PDF302April 18, 2025