ChatPaper.aiChatPaper

MosaicMem: 제어 가능한 비디오 세계 모델을 위한 하이브리드 공간 메모리

MosaicMem: Hybrid Spatial Memory for Controllable Video World Models

March 17, 2026
저자: Wei Yu, Runjia Qian, Yumeng Li, Liquan Wang, Songheng Yin, Sri Siddarth Chakaravarthy P, Dennis Anthony, Yang Ye, Yidi Li, Weiwei Wan, Animesh Garg
cs.AI

초록

비디오 확산 모델은 짧고 그럴듯한 클립을 넘어 카메라 모션, 재방문, 개입 하에서도 일관성을 유지해야 하는 세계 시뮬레이터로 발전하고 있습니다. 그러나 공간 메모리는 여전히 주요 병목 현안으로 남아 있습니다: 명시적 3D 구조는 재투영 기반 일관성 향상에 도움이 되지만 움직이는 객체 표현에는 한계가 있으며, 암묵적 메모리는 정확한 포즈 입력 시에도 부정확한 카메라 모션을 생성하는 경우가 많습니다. 우리는 Mosaic Memory(MosaicMem)를 제안합니다. 이는 패치를 3D로 리프팅하여 신뢰할 수 있는 위치 추정 및 대상 검색을 수행하면서, 모델의 고유 조건화를 활용하여 프롬프트 추종 생성을 유지하는 하이브리드 공간 메모리입니다. MosaicMem은 패치-앤-컴포즈 인터페이스를 통해 쿼리 뷰에서 공간적으로 정렬된 패치를 구성하여 유지되어야 할 요소는 보존하고, 변화해야 할 요소는 모델이 인페인팅하도록 합니다. PRoPE 카메라 조건화와 두 가지 새로운 메모리 정렬 방법을 통해 실험 결과, 암묵적 메모리 대비 향상된 포즈 준수도와 명시적 베이스라인 대비 강력한 동적 모델링 성능을 확인했습니다. MosaicMem은 더 나아가 분 단위 네비게이션, 메모리 기반 장면 편집, 자기회귀 롤아웃을 가능하게 합니다.
English
Video diffusion models are moving beyond short, plausible clips toward world simulators that must remain consistent under camera motion, revisits, and intervention. Yet spatial memory remains a key bottleneck: explicit 3D structures can improve reprojection-based consistency but struggle to depict moving objects, while implicit memory often produces inaccurate camera motion even with correct poses. We propose Mosaic Memory (MosaicMem), a hybrid spatial memory that lifts patches into 3D for reliable localization and targeted retrieval, while exploiting the model's native conditioning to preserve prompt-following generation. MosaicMem composes spatially aligned patches in the queried view via a patch-and-compose interface, preserving what should persist while allowing the model to inpaint what should evolve. With PRoPE camera conditioning and two new memory alignment methods, experiments show improved pose adherence compared to implicit memory and stronger dynamic modeling than explicit baselines. MosaicMem further enables minute-level navigation, memory-based scene editing, and autoregressive rollout.
PDF745March 20, 2026