MosaicMem: Memoria Spaziale Ibrida per Modelli Video Mondiali Controllabili

Abstract

I modelli di diffusione video stanno evolvendo oltre la semplice generazione di clip brevi e plausibili verso simulatori di mondi che devono mantenere la coerenza durante il movimento della telecamera, le rivisitazioni e gli interventi. Tuttavia, la memoria spaziale rimane un collo di bottiglia fondamentale: le strutture 3D esplicite possono migliorare la coerenza basata sulla riproiezione, ma faticano a rappresentare oggetti in movimento, mentre la memoria implicita spesso produce un movimento della telecamera impreciso anche con pose corrette. Proponiamo Mosaic Memory (MosaicMem), una memoria spaziale ibrida che eleva le patch in 3D per una localizzazione affidabile e un recupero mirato, sfruttando al contempo il conditioning nativo del modello per preservare una generazione fedele al prompt. MosaicMem compone patch allineate spazialmente nella vista interrogata tramite un'interfaccia patch-and-compose, preservando ciò che dovrebbe persistere e consentendo al modello di inpaintare ciò che dovrebbe evolversi. Grazie al conditioning della telecamera PRoPE e a due nuovi metodi di allineamento della memoria, gli esperimenti mostrano un'aderenza alla pose superiore rispetto alla memoria implicita e una modellazione dinamica più robusta rispetto ai baseline espliciti. MosaicMem consente inoltre navigazione a livello di minuti, editing della scena basato sulla memoria e rollout autoregressivo.

English

Video diffusion models are moving beyond short, plausible clips toward world simulators that must remain consistent under camera motion, revisits, and intervention. Yet spatial memory remains a key bottleneck: explicit 3D structures can improve reprojection-based consistency but struggle to depict moving objects, while implicit memory often produces inaccurate camera motion even with correct poses. We propose Mosaic Memory (MosaicMem), a hybrid spatial memory that lifts patches into 3D for reliable localization and targeted retrieval, while exploiting the model's native conditioning to preserve prompt-following generation. MosaicMem composes spatially aligned patches in the queried view via a patch-and-compose interface, preserving what should persist while allowing the model to inpaint what should evolve. With PRoPE camera conditioning and two new memory alignment methods, experiments show improved pose adherence compared to implicit memory and stronger dynamic modeling than explicit baselines. MosaicMem further enables minute-level navigation, memory-based scene editing, and autoregressive rollout.

MosaicMem: Memoria Spaziale Ibrida per Modelli Video Mondiali Controllabili

MosaicMem: Hybrid Spatial Memory for Controllable Video World Models

Abstract

Support