MosaicMem: Hybride Ruimtelijk Geheugen voor Beheerbare Videowereldmodellen

Samenvatting

Videodiffusiemodellen evolueren van korte, plausibele fragmenten naar wereldsimulatoren die consistent moeten blijven onder camerabeweging, herbezoeken en interventie. Toch blijft ruimtelijk geheugen een belangrijke bottleneck: expliciete 3D-structuren kunnen reprojectiegebaseerde consistentie verbeteren, maar hebben moeite met bewegende objecten, terwijl impliciet geheugen vaak onnauwkeurige camerabeweging produceert zelfs bij correcte poses. Wij stellen Mosaic Memory (MosaicMem) voor, een hybride ruimtelijk geheugen dat patches optilt naar 3D voor betrouwbare lokalisatie en gerichte retrieval, terwijl het de native conditionering van het model benut om prompt-volgende generatie te behouden. MosaicMem composeert ruimtelijk uitgelijnde patches in de bevraagde weergave via een patch-en-compose-interface, waarbij wordt bewaard wat moet voortduren en het model kan inpaintten wat moet evolueren. Met PRoPE-cameraconditionering en twee nieuwe geheugenuitlijningsmethoden tonen experimenten verbeterde pose-naleving vergeleken met impliciet geheugen en sterkere dynamische modellering dan expliciete baselines. MosaicMem maakt verder minutenlange navigatie, geheugengebaseerde scene-editing en autoregressieve rollout mogelijk.

English

Video diffusion models are moving beyond short, plausible clips toward world simulators that must remain consistent under camera motion, revisits, and intervention. Yet spatial memory remains a key bottleneck: explicit 3D structures can improve reprojection-based consistency but struggle to depict moving objects, while implicit memory often produces inaccurate camera motion even with correct poses. We propose Mosaic Memory (MosaicMem), a hybrid spatial memory that lifts patches into 3D for reliable localization and targeted retrieval, while exploiting the model's native conditioning to preserve prompt-following generation. MosaicMem composes spatially aligned patches in the queried view via a patch-and-compose interface, preserving what should persist while allowing the model to inpaint what should evolve. With PRoPE camera conditioning and two new memory alignment methods, experiments show improved pose adherence compared to implicit memory and stronger dynamic modeling than explicit baselines. MosaicMem further enables minute-level navigation, memory-based scene editing, and autoregressive rollout.

MosaicMem: Hybride Ruimtelijk Geheugen voor Beheerbare Videowereldmodellen

MosaicMem: Hybrid Spatial Memory for Controllable Video World Models

Samenvatting

Support