AnchorWeave: Generazione Video Coerente con il Mondo tramite Memorie Spaziali Locali Recuperate

Abstract

Mantenere la coerenza spaziale del mondo su orizzonti lunghi rimane una sfida centrale per la generazione di video controllabile tramite telecamera. Gli approcci esistenti basati sulla memoria condizionano spesso la generazione su scene 3D ricostruite globalmente, renderizzando video di ancoraggio dalla geometria ricostruita nella cronologia. Tuttavia, ricostruire una scena 3D globale da viste multiple introduce inevitabilmente disallineamenti tra le viste, poiché gli errori di stima della posa e della profondità causano la ricostruzione delle stesse superfici in posizioni 3D leggermente diverse tra le viste. Quando fuse, queste incongruenze si accumulano in una geometria rumorosa che contamina i segnali di condizionamento e degrada la qualità della generazione. Introduciamo AnchorWeave, un framework di generazione video potenziato dalla memoria che sostituisce un'unica memoria globale disallineata con multiple memorie geometriche locali pulite e impara a riconciliare le loro incongruenze cross-view. A tal fine, AnchorWeave esegue un recupero della memoria locale guidato dalla copertura, allineato con la traiettoria target, e integra le memorie locali selezionate attraverso un controller di tessitura multi-ancora durante la generazione. Esperimenti estesi dimostrano che AnchorWeave migliora significativamente la coerenza della scena a lungo termine mantenendo una forte qualità visiva, con studi di ablazione e analisi che convalidano ulteriormente l'efficacia del condizionamento geometrico locale, del controllo multi-ancora e del recupero guidato dalla copertura.

English

Maintaining spatial world consistency over long horizons remains a central challenge for camera-controllable video generation. Existing memory-based approaches often condition generation on globally reconstructed 3D scenes by rendering anchor videos from the reconstructed geometry in the history. However, reconstructing a global 3D scene from multiple views inevitably introduces cross-view misalignment, as pose and depth estimation errors cause the same surfaces to be reconstructed at slightly different 3D locations across views. When fused, these inconsistencies accumulate into noisy geometry that contaminates the conditioning signals and degrades generation quality. We introduce AnchorWeave, a memory-augmented video generation framework that replaces a single misaligned global memory with multiple clean local geometric memories and learns to reconcile their cross-view inconsistencies. To this end, AnchorWeave performs coverage-driven local memory retrieval aligned with the target trajectory and integrates the selected local memories through a multi-anchor weaving controller during generation. Extensive experiments demonstrate that AnchorWeave significantly improves long-term scene consistency while maintaining strong visual quality, with ablation and analysis studies further validating the effectiveness of local geometric conditioning, multi-anchor control, and coverage-driven retrieval.

AnchorWeave: Generazione Video Coerente con il Mondo tramite Memorie Spaziali Locali Recuperate

AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories

Abstract

Support