MosaicMem: Memória Espacial Híbrida para Modelos de Mundo em Vídeo Controláveis

Resumo

Os modelos de difusão de vídeo estão evoluindo de clipes curtos e plausíveis para simuladores de mundo que devem manter a consistência sob movimento de câmera, revisitas e intervenção. No entanto, a memória espacial permanece um gargalo fundamental: estruturas 3D explícitas podem melhorar a consistência baseada em reprojeção, mas têm dificuldade em representar objetos em movimento, enquanto a memória implícita frequentemente produz movimento de câmera impreciso, mesmo com poses corretas. Propomos Mosaic Memory (MosaicMem), uma memória espacial híbrida que eleva *patches* para o 3D para localização confiável e recuperação direcionada, enquanto explora o condicionamento nativo do modelo para preservar a geração que segue o *prompt*. O MosaicMem compõe *patches* espacialmente alinhados na vista consultada por meio de uma interface de *patch-and-compose*, preservando o que deve persistir enquanto permite que o modelo preencha o que deve evoluir. Com o condicionamento de câmera PRoPE e dois novos métodos de alinhamento de memória, os experimentos mostram uma melhor aderência à pose em comparação com a memória implícita e uma modelagem dinâmica mais forte do que as *baselines* explícitas. O MosaicMem ainda possibilita navegação em nível de minutos, edição de cena baseada em memória e *rollout* autorregressivo.

English

Video diffusion models are moving beyond short, plausible clips toward world simulators that must remain consistent under camera motion, revisits, and intervention. Yet spatial memory remains a key bottleneck: explicit 3D structures can improve reprojection-based consistency but struggle to depict moving objects, while implicit memory often produces inaccurate camera motion even with correct poses. We propose Mosaic Memory (MosaicMem), a hybrid spatial memory that lifts patches into 3D for reliable localization and targeted retrieval, while exploiting the model's native conditioning to preserve prompt-following generation. MosaicMem composes spatially aligned patches in the queried view via a patch-and-compose interface, preserving what should persist while allowing the model to inpaint what should evolve. With PRoPE camera conditioning and two new memory alignment methods, experiments show improved pose adherence compared to implicit memory and stronger dynamic modeling than explicit baselines. MosaicMem further enables minute-level navigation, memory-based scene editing, and autoregressive rollout.

MosaicMem: Memória Espacial Híbrida para Modelos de Mundo em Vídeo Controláveis

MosaicMem: Hybrid Spatial Memory for Controllable Video World Models

Resumo

Support