AnchorWeave: 검색된 지역 공간 기억을 활용한 세계 일관성 비디오 생성
AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories
February 16, 2026
저자: Zun Wang, Han Lin, Jaehong Yoon, Jaemin Cho, Yue Zhang, Mohit Bansal
cs.AI
초록
장기적인 시간 축에서 공간적 세계 일관성을 유지하는 것은 카메라 제어 가능 비디오 생성의 핵심 과제로 남아 있습니다. 기존 메모리 기반 접근법들은 일반적으로 역사 데이터에서 재구성된 기하학을 통해 앵커 비디오를 렌더링하여 전역적으로 재구성된 3D 장면을 조건으로 생성합니다. 그러나 다중 뷰에서 전역 3D 장면을 재구성할 때는 포즈 및 깊이 추정 오류로 인해 동일한 표면이 각 뷰마다 약간 다른 3D 위치에 재구성되는 교차 뷰 정렬 불일치가 불가피하게 발생합니다. 이러한 불일치가 융합되면 노이즈가 있는 기하학으로 누적되어 조건 신호를 오염시키고 생성 품질을 저하시킵니다. 우리는 단일의 정렬되지 않은 전역 메모리를 여러 개의 깨끗한 지역 기하학적 메모리로 대체하고 이들 간의 교차 뷰 불일치를 조정하는 방법을 학습하는 메모리 증강 비디오 생성 프레임워크인 AnchorWeave를 소개합니다. 이를 위해 AnchorWeave는 목표 궤적과 정렬된 커버리지 주도 지역 메모리 검색을 수행하고, 생성 과정 중 다중 앵커 위빙 컨트롤러를 통해 선택된 지역 메모리들을 통합합니다. 광범위한 실험을 통해 AnchorWeave가 우수한 시각적 품질을 유지하면서 장기적 장면 일관성을 크게 향상시킴을 입증하였으며, 애블레이션 및 분석 연구를 통해 지역 기하학적 조건화, 다중 앵커 제어, 커버리지 주도 검색의 효과를 추가로 검증하였습니다.
English
Maintaining spatial world consistency over long horizons remains a central challenge for camera-controllable video generation. Existing memory-based approaches often condition generation on globally reconstructed 3D scenes by rendering anchor videos from the reconstructed geometry in the history. However, reconstructing a global 3D scene from multiple views inevitably introduces cross-view misalignment, as pose and depth estimation errors cause the same surfaces to be reconstructed at slightly different 3D locations across views. When fused, these inconsistencies accumulate into noisy geometry that contaminates the conditioning signals and degrades generation quality. We introduce AnchorWeave, a memory-augmented video generation framework that replaces a single misaligned global memory with multiple clean local geometric memories and learns to reconcile their cross-view inconsistencies. To this end, AnchorWeave performs coverage-driven local memory retrieval aligned with the target trajectory and integrates the selected local memories through a multi-anchor weaving controller during generation. Extensive experiments demonstrate that AnchorWeave significantly improves long-term scene consistency while maintaining strong visual quality, with ablation and analysis studies further validating the effectiveness of local geometric conditioning, multi-anchor control, and coverage-driven retrieval.