AnchorWeave: Согласованная с миром генерация видео с использованием извлеченных локальных пространственных воспоминаний
AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories
February 16, 2026
Авторы: Zun Wang, Han Lin, Jaehong Yoon, Jaemin Cho, Yue Zhang, Mohit Bansal
cs.AI
Аннотация
Сохранение пространственной согласованности мира на длинных временных горизонтах остается ключевой проблемой для генерации видео с управляемой камерой. Существующие подходы, основанные на памяти, часто строят генерацию на основе глобально реконструированных 3D-сцен, рендеря опорные видео из реконструированной геометрии истории. Однако реконструкция глобальной 3D-сцены из множества ракурсов неизбежно приводит к межракурсному несовпадению, поскольку ошибки оценки позы и глубины вызывают реконструкцию одних и тех же поверхностей в слегка различных 3D-положениях в разных ракурсах. При слиянии эти несоответствия накапливаются в зашумленную геометрию, которая загрязняет conditioning-сигналы и ухудшает качество генерации. Мы представляем AnchorWeave, фреймворк генерации видео с расширенной памятью, который заменяет единую глобальную память с несовпадениями на множество чистых локальных геометрических памятей и обучается согласовывать их межракурсные несоответствия. Для этого AnchorWeave выполняет управляемое покрытием извлечение локальной памяти, выровненное с целевой траекторией, и интегрирует выбранные локальные памяти посредством мульти-опорного ткацкого контроллера в процессе генерации. Многочисленные эксперименты демонстрируют, что AnchorWeave значительно улучшает долгосрочную согласованность сцены, сохраняя высокое визуальное качество, а исследования методом абляции и анализ дополнительно подтверждают эффективность локального геометрического кондиционирования, мульти-опорного управления и извлечения, управляемого покрытием.
English
Maintaining spatial world consistency over long horizons remains a central challenge for camera-controllable video generation. Existing memory-based approaches often condition generation on globally reconstructed 3D scenes by rendering anchor videos from the reconstructed geometry in the history. However, reconstructing a global 3D scene from multiple views inevitably introduces cross-view misalignment, as pose and depth estimation errors cause the same surfaces to be reconstructed at slightly different 3D locations across views. When fused, these inconsistencies accumulate into noisy geometry that contaminates the conditioning signals and degrades generation quality. We introduce AnchorWeave, a memory-augmented video generation framework that replaces a single misaligned global memory with multiple clean local geometric memories and learns to reconcile their cross-view inconsistencies. To this end, AnchorWeave performs coverage-driven local memory retrieval aligned with the target trajectory and integrates the selected local memories through a multi-anchor weaving controller during generation. Extensive experiments demonstrate that AnchorWeave significantly improves long-term scene consistency while maintaining strong visual quality, with ablation and analysis studies further validating the effectiveness of local geometric conditioning, multi-anchor control, and coverage-driven retrieval.