ChatPaper.aiChatPaper

AnchorWeave:局所的空間メモリの検索に基づく世界整合性ビデオ生成

AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories

February 16, 2026
著者: Zun Wang, Han Lin, Jaehong Yoon, Jaemin Cho, Yue Zhang, Mohit Bansal
cs.AI

要旨

長時間にわたる空間的世界の一貫性の維持は、カメラ制御可能なビデオ生成における中心的な課題である。既存のメモリベースの手法では、履歴データから再構築された3Dシーンをレンダリングしたアンカービデオに基づいて生成を行うことが多い。しかし、複数の視点からグローバルな3Dシーンを再構築する際、ポーズ推定や深度推定の誤差により、同一表面が視点間で微妙に異なる3D位置に再構築されるため、視点間の不整合が不可避的に生じる。これらの不整合が融合されると、ノイズの多い幾何学構造として蓄積され、条件付け信号を汚染し生成品質を低下させる。本論文ではAnchorWeaveを提案する。これは、単一の不整合なグローバルメモリを複数のクリーンなローカル幾何学メモリで置き換え、それらの視点間不整合を調整することを学習するメモリ拡張型ビデオ生成フレームワークである。この目的のために、AnchorWeaveは目標軌道に沿ったカバレッジ駆動型ローカルメモリ検索を実行し、生成過程中にマルチアンカーウィービングコントローラを介して選択されたローカルメモリを統合する。大規模な実験により、AnchorWeaveが優れた視覚品質を維持しつつ長期的なシーン一貫性を大幅に向上させることを実証し、アブレーション研究および分析研究を通じて、ローカル幾何学条件付け、マルチアンカー制御、カバレッジ駆動型検索の有効性をさらに検証する。
English
Maintaining spatial world consistency over long horizons remains a central challenge for camera-controllable video generation. Existing memory-based approaches often condition generation on globally reconstructed 3D scenes by rendering anchor videos from the reconstructed geometry in the history. However, reconstructing a global 3D scene from multiple views inevitably introduces cross-view misalignment, as pose and depth estimation errors cause the same surfaces to be reconstructed at slightly different 3D locations across views. When fused, these inconsistencies accumulate into noisy geometry that contaminates the conditioning signals and degrades generation quality. We introduce AnchorWeave, a memory-augmented video generation framework that replaces a single misaligned global memory with multiple clean local geometric memories and learns to reconcile their cross-view inconsistencies. To this end, AnchorWeave performs coverage-driven local memory retrieval aligned with the target trajectory and integrates the selected local memories through a multi-anchor weaving controller during generation. Extensive experiments demonstrate that AnchorWeave significantly improves long-term scene consistency while maintaining strong visual quality, with ablation and analysis studies further validating the effectiveness of local geometric conditioning, multi-anchor control, and coverage-driven retrieval.
PDF12February 18, 2026