MosaicMem : Mémoire spatiale hybride pour les modèles de monde vidéo contrôlables

Résumé

Les modèles de diffusion vidéo dépassent désormais la génération de courts clips plausibles pour évoluer vers des simulateurs mondiaux devant maintenir leur cohérence face aux mouvements de caméra, aux revisites et aux interventions. Pourtant, la mémoire spatiale reste un goulot d'étranglement majeur : les structures 3D explicites améliorent la cohérence par reprojection mais peinent à représenter les objets mobiles, tandis que la mémoire implicite produit souvent des mouvements de caméra inexacts même avec des poses correctes. Nous proposons Mosaic Memory (MosaicMem), une mémoire spatiale hybride qui projette des patches en 3D pour une localisation fiable et une récupération ciblée, tout en exploitant le conditionnement natif du modèle pour préserver la génération fidèle au prompt. MosaicMem compose des patches spatialement alignés dans la vue interrogée via une interface de patch-and-compose, préservant ce qui doit persister tout en permettant au modèle d'inpainter ce qui doit évoluer. Avec le conditionnement caméra PRoPE et deux nouvelles méthodes d'alignement mémoire, les expériences montrent une meilleure adhérence aux poses comparé à la mémoire implicite et une modélisation dynamique plus robuste que les approches explicites. MosaicMem permet en outre une navigation à l'échelle de la minute, l'édition de scènes basée sur la mémoire et le déploiement autorégressif.

English

Video diffusion models are moving beyond short, plausible clips toward world simulators that must remain consistent under camera motion, revisits, and intervention. Yet spatial memory remains a key bottleneck: explicit 3D structures can improve reprojection-based consistency but struggle to depict moving objects, while implicit memory often produces inaccurate camera motion even with correct poses. We propose Mosaic Memory (MosaicMem), a hybrid spatial memory that lifts patches into 3D for reliable localization and targeted retrieval, while exploiting the model's native conditioning to preserve prompt-following generation. MosaicMem composes spatially aligned patches in the queried view via a patch-and-compose interface, preserving what should persist while allowing the model to inpaint what should evolve. With PRoPE camera conditioning and two new memory alignment methods, experiments show improved pose adherence compared to implicit memory and stronger dynamic modeling than explicit baselines. MosaicMem further enables minute-level navigation, memory-based scene editing, and autoregressive rollout.

MosaicMem : Mémoire spatiale hybride pour les modèles de monde vidéo contrôlables

MosaicMem: Hybrid Spatial Memory for Controllable Video World Models

Résumé

Support