MosaicMem: Гибридная пространственная память для управляемых видеомировых моделей

Аннотация

Видеодиффузионные модели выходят за рамки коротких правдоподобных клипов, приближаясь к симуляторам миров, которые должны сохранять согласованность при движении камеры, повторных посещениях сцен и вмешательствах. Однако пространственная память остается ключевым узким местом: явные 3D-структуры могут улучшить согласованность на основе репроекции, но плохо справляются с изображением движущихся объектов, в то время как неявная память часто приводит к неточному движению камеры даже при корректных позах. Мы предлагаем Mosaic Memory (MosaicMem) — гибридную пространственную память, которая поднимает патчи в 3D для надежной локализации и целевого поиска, одновременно используя собственные механизмы кондиционирования модели для сохранения генерации, следующей за промптом. MosaicMem компонует пространственно выровненные патчи в запрашиваемом виде через интерфейс patch-and-compose, сохраняя то, что должно оставаться неизменным, и позволяя модели дорисовывать то, что должно развиваться. Благодаря кондиционированию камеры PRoPE и двум новым методам выравнивания памяти эксперименты показывают улучшенное следование позам по сравнению с неявной памятью и более сильное моделирование динамики, чем у явных базовых методов. MosaicMem также позволяет осуществлять навигацию на уровне минут, редактирование сцены на основе памяти и авторегрессионное развертывание.

English

Video diffusion models are moving beyond short, plausible clips toward world simulators that must remain consistent under camera motion, revisits, and intervention. Yet spatial memory remains a key bottleneck: explicit 3D structures can improve reprojection-based consistency but struggle to depict moving objects, while implicit memory often produces inaccurate camera motion even with correct poses. We propose Mosaic Memory (MosaicMem), a hybrid spatial memory that lifts patches into 3D for reliable localization and targeted retrieval, while exploiting the model's native conditioning to preserve prompt-following generation. MosaicMem composes spatially aligned patches in the queried view via a patch-and-compose interface, preserving what should persist while allowing the model to inpaint what should evolve. With PRoPE camera conditioning and two new memory alignment methods, experiments show improved pose adherence compared to implicit memory and stronger dynamic modeling than explicit baselines. MosaicMem further enables minute-level navigation, memory-based scene editing, and autoregressive rollout.

MosaicMem: Гибридная пространственная память для управляемых видеомировых моделей

MosaicMem: Hybrid Spatial Memory for Controllable Video World Models

Аннотация

Support