ChatPaper.aiChatPaper

AnchorWeave: Weltkonsistente Videogenerierung mit abgerufenen lokalen räumlichen Erinnerungen

AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories

February 16, 2026
papers.authors: Zun Wang, Han Lin, Jaehong Yoon, Jaemin Cho, Yue Zhang, Mohit Bansal
cs.AI

papers.abstract

Die Aufrechterhaltung einer räumlichen Weltkonsistenz über lange Zeiträume hinweg bleibt eine zentrale Herausforderung für kamerasteuerbare Videogenerierung. Bestehende speicherbasierte Ansätze konditionieren die Erzeugung oft auf global rekonstruierten 3D-Szenen, indem Ankervideos aus der rekonstruierten Geometrie der Vergangenheit gerendert werden. Die Rekonstruktion einer globalen 3D-Szene aus mehreren Blickwinkeln führt jedoch unweigerlich zu Blickwinkel-Fehlausrichtungen, da Schätzfehler in Pose und Tiefe dazu führen, dass dieselben Oberflächen in verschiedenen Blickwinkeln an leicht unterschiedlichen 3D-Positionen rekonstruiert werden. Beim Zusammenführen akkumulieren diese Inkonsistenzen zu verrauschter Geometrie, die die Konditionierungssignale verunreinigt und die Generierungsqualität beeinträchtigt. Wir stellen AnchorWeave vor, einen speichererweiterten Videogenerierungsrahmen, der einen einzelnen fehlausgerichteten globalen Speicher durch mehrere saubere lokale geometrische Speicher ersetzt und erlernt, deren Blickwinkel-Inkonsistenzen auszugleichen. Zu diesem Zweck führt AnchorWeave eine abdeckungsgesteuerte Lokalspeicher-Abrufung durch, die an die Zieltrajektorie angepasst ist, und integriert die ausgewählten lokalen Speicher während der Generierung über einen Multi-Anker-Webcontroller. Umfangreiche Experimente zeigen, dass AnchorWeave die langfristige Szenenkonsistenz signifikant verbessert und dabei eine hohe visuelle Qualität beibehält. Ablations- und Analysestudien validieren weiterhin die Wirksamkeit der lokalen geometrischen Konditionierung, der Multi-Anker-Steuerung und des abdeckungsgesteuerten Abrufs.
English
Maintaining spatial world consistency over long horizons remains a central challenge for camera-controllable video generation. Existing memory-based approaches often condition generation on globally reconstructed 3D scenes by rendering anchor videos from the reconstructed geometry in the history. However, reconstructing a global 3D scene from multiple views inevitably introduces cross-view misalignment, as pose and depth estimation errors cause the same surfaces to be reconstructed at slightly different 3D locations across views. When fused, these inconsistencies accumulate into noisy geometry that contaminates the conditioning signals and degrades generation quality. We introduce AnchorWeave, a memory-augmented video generation framework that replaces a single misaligned global memory with multiple clean local geometric memories and learns to reconcile their cross-view inconsistencies. To this end, AnchorWeave performs coverage-driven local memory retrieval aligned with the target trajectory and integrates the selected local memories through a multi-anchor weaving controller during generation. Extensive experiments demonstrate that AnchorWeave significantly improves long-term scene consistency while maintaining strong visual quality, with ablation and analysis studies further validating the effectiveness of local geometric conditioning, multi-anchor control, and coverage-driven retrieval.
PDF12February 18, 2026