MosaicMem: Memoria Espacial Híbrida para Modelos de Mundo de Video Controlables

Resumen

Los modelos de difusión de vídeo están evolucionando más allá de clips cortos y plausibles hacia simuladores de mundos que deben mantener la coherencia bajo movimiento de cámara, revisitaciones e intervención. Sin embargo, la memoria espacial sigue siendo un cuello de botella clave: las estructuras 3D explícitas pueden mejorar la coherencia basada en reproyección, pero tienen dificultades para representar objetos en movimiento, mientras que la memoria implícita a menudo produce movimientos de cámara inexactos incluso con poses correctas. Proponemos Mosaic Memory (MosaicMem), una memoria espacial híbrida que eleva parches al espacio 3D para una localización fiable y una recuperación dirigida, aprovechando al mismo tiempo el condicionamiento nativo del modelo para preservar la generación guiada por *prompts*. MosaicMem compone parches alineados espacialmente en la vista consultada mediante una interfaz de parcheo y composición, preservando lo que debe persistir mientras permite al modelo reconstruir lo que debe evolucionar. Con el condicionamiento de cámara PRoPE y dos nuevos métodos de alineación de memoria, los experimentos muestran una mejor adherencia a la pose en comparación con la memoria implícita y un modelado dinámico más sólido que las líneas base explícitas. MosaicMem permite además la navegación a nivel de minutos, la edición de escenas basada en memoria y el despliegue autoregresivo.

English

Video diffusion models are moving beyond short, plausible clips toward world simulators that must remain consistent under camera motion, revisits, and intervention. Yet spatial memory remains a key bottleneck: explicit 3D structures can improve reprojection-based consistency but struggle to depict moving objects, while implicit memory often produces inaccurate camera motion even with correct poses. We propose Mosaic Memory (MosaicMem), a hybrid spatial memory that lifts patches into 3D for reliable localization and targeted retrieval, while exploiting the model's native conditioning to preserve prompt-following generation. MosaicMem composes spatially aligned patches in the queried view via a patch-and-compose interface, preserving what should persist while allowing the model to inpaint what should evolve. With PRoPE camera conditioning and two new memory alignment methods, experiments show improved pose adherence compared to implicit memory and stronger dynamic modeling than explicit baselines. MosaicMem further enables minute-level navigation, memory-based scene editing, and autoregressive rollout.

MosaicMem: Memoria Espacial Híbrida para Modelos de Mundo de Video Controlables

MosaicMem: Hybrid Spatial Memory for Controllable Video World Models

Resumen

Support