MosaicMem: Hybrider räumlicher Speicher für steuerbare Videoweltenmodelle

Zusammenfassung

Video-Diffusionsmodelle entwickeln sich über kurze, plausible Clips hinaus zu Weltsimulatoren, die unter Kamerabewegung, Wiederbesuchen und Eingriffen konsistent bleiben müssen. Dennoch bleibt räumliches Gedächtnis ein zentraler Engpass: Explizite 3D-Strukturen können reprojektionsbasierte Konsistenz verbessern, haben aber Schwierigkeiten, bewegte Objekte darzustellen, während implizite Gedächtnisse oft ungenaue Kamerabewegungen erzeugen, selbst bei korrekten Posen. Wir schlagen Mosaic Memory (MosaicMem) vor, einen hybriden räumlichen Speicher, der Patches in 3D überführt, um zuverlässige Lokalisierung und gezielten Abruf zu ermöglichen, während die native Konditionierung des Modells genutzt wird, um promptgesteuerte Generierung beizubehalten. MosaicMem komponiert räumlich ausgerichtete Patches in der angefragten Ansicht über eine Patch-and-Compose-Schnittstelle, bewahrt, was bestehen bleiben soll, und ermöglicht es dem Modell, sich entwickelnde Bereiche zu inpainten. Mit PRoPE-Kamerakonditionierung und zwei neuen Methoden zur Gedächtnisausrichtung zeigen Experimente verbesserte Poseneinhaltung im Vergleich zu implizitem Gedächtnis und stärkere Dynamikmodellierung als explizite Baselines. MosaicMem ermöglicht zudem Navigation auf Minutenebene, speicherbasierte Szenenbearbeitung und autoregressives Rollout.

English

Video diffusion models are moving beyond short, plausible clips toward world simulators that must remain consistent under camera motion, revisits, and intervention. Yet spatial memory remains a key bottleneck: explicit 3D structures can improve reprojection-based consistency but struggle to depict moving objects, while implicit memory often produces inaccurate camera motion even with correct poses. We propose Mosaic Memory (MosaicMem), a hybrid spatial memory that lifts patches into 3D for reliable localization and targeted retrieval, while exploiting the model's native conditioning to preserve prompt-following generation. MosaicMem composes spatially aligned patches in the queried view via a patch-and-compose interface, preserving what should persist while allowing the model to inpaint what should evolve. With PRoPE camera conditioning and two new memory alignment methods, experiments show improved pose adherence compared to implicit memory and stronger dynamic modeling than explicit baselines. MosaicMem further enables minute-level navigation, memory-based scene editing, and autoregressive rollout.

MosaicMem: Hybrider räumlicher Speicher für steuerbare Videoweltenmodelle

MosaicMem: Hybrid Spatial Memory for Controllable Video World Models

Zusammenfassung

Support