ChatPaper.aiChatPaper

AnchorWeave : Génération de vidéos cohérentes avec le monde grâce à la récupération de mémoires spatiales locales

AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories

February 16, 2026
papers.authors: Zun Wang, Han Lin, Jaehong Yoon, Jaemin Cho, Yue Zhang, Mohit Bansal
cs.AI

papers.abstract

La préservation de la cohérence spatiale du monde sur de longues séquences reste un défi majeur pour la génération de vidéos contrôlables par caméra. Les approches existantes basées sur la mémoire conditionnent souvent la génération sur des scènes 3D reconstruites globalement en rendant des vidéos d'ancrage à partir de la géométrie reconstruite de l'historique. Cependant, la reconstruction d'une scène 3D globale à partir de vues multiples introduit inévitablement des défauts d'alignement inter-vues, car les erreurs d'estimation de pose et de profondeur entraînent la reconstruction des mêmes surfaces à des positions 3D légèrement différentes selon les vues. Lors de leur fusion, ces incohérences s'accumulent en une géométrie bruitée qui altère les signaux de conditionnement et dégrade la qualité de génération. Nous présentons AnchorWeave, un cadre de génération vidéo augmenté par mémoire qui remplace une mémoire globale unique et mal alignée par plusieurs mémoires géométriques locales propres et apprend à réconcilier leurs incohérences inter-vues. Pour ce faire, AnchorWeave effectue une récupération de mémoire locale pilotée par la couverture, alignée sur la trajectoire cible, et intègre les mémoires locales sélectionnées via un contrôleur de tissage multi-ancres durant la génération. Des expériences approfondies démontrent qu'AnchorWeave améliore significativement la cohérence scénique à long terme tout en maintenant une forte qualité visuelle, avec des études d'ablation et d'analyse validant en outre l'efficacité du conditionnement géométrique local, du contrôle multi-ancres et de la récupération pilotée par couverture.
English
Maintaining spatial world consistency over long horizons remains a central challenge for camera-controllable video generation. Existing memory-based approaches often condition generation on globally reconstructed 3D scenes by rendering anchor videos from the reconstructed geometry in the history. However, reconstructing a global 3D scene from multiple views inevitably introduces cross-view misalignment, as pose and depth estimation errors cause the same surfaces to be reconstructed at slightly different 3D locations across views. When fused, these inconsistencies accumulate into noisy geometry that contaminates the conditioning signals and degrades generation quality. We introduce AnchorWeave, a memory-augmented video generation framework that replaces a single misaligned global memory with multiple clean local geometric memories and learns to reconcile their cross-view inconsistencies. To this end, AnchorWeave performs coverage-driven local memory retrieval aligned with the target trajectory and integrates the selected local memories through a multi-anchor weaving controller during generation. Extensive experiments demonstrate that AnchorWeave significantly improves long-term scene consistency while maintaining strong visual quality, with ablation and analysis studies further validating the effectiveness of local geometric conditioning, multi-anchor control, and coverage-driven retrieval.
PDF12February 18, 2026