ChatPaper.aiChatPaper

AnchorWeave: Generación de Video Consistente con el Mundo mediante Memorias Espaciales Locales Recuperadas

AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories

February 16, 2026
Autores: Zun Wang, Han Lin, Jaehong Yoon, Jaemin Cho, Yue Zhang, Mohit Bansal
cs.AI

Resumen

Mantener la consistencia espacial del mundo a lo largo de horizontes prolongados sigue siendo un desafío central para la generación de videos controlables por cámara. Los enfoques existentes basados en memoria a menudo condicionan la generación en escenas 3D reconstruidas globalmente mediante la renderización de videos ancla a partir de la geometría reconstruida en el historial. Sin embargo, reconstruir una escena 3D global a partir de múltiples vistas introduce inevitablemente desalineaciones inter-vistas, ya que los errores de estimación de pose y profundidad provocan que las mismas superficies se reconstruyan en ubicaciones 3D ligeramente diferentes entre vistas. Al fusionarse, estas inconsistencias se acumulan en una geometría ruidosa que contamina las señales de condicionamiento y degrada la calidad de la generación. Presentamos AnchorWeave, un marco de generación de videos aumentado con memoria que reemplaza una única memoria global desalineada con múltiples memorias geométricas locales limpias y aprende a reconciliar sus inconsistencias inter-vistas. Para ello, AnchorWeave realiza una recuperación de memoria local impulsada por cobertura alineada con la trayectoria objetivo e integra las memorias locales seleccionadas mediante un controlador de tejido multi-ancla durante la generación. Experimentos exhaustivos demuestran que AnchorWeave mejora significativamente la consistencia escénica a largo plazo manteniendo una sólida calidad visual, con estudios de ablación y análisis que validan además la efectividad del condicionamiento geométrico local, el control multi-ancla y la recuperación impulsada por cobertura.
English
Maintaining spatial world consistency over long horizons remains a central challenge for camera-controllable video generation. Existing memory-based approaches often condition generation on globally reconstructed 3D scenes by rendering anchor videos from the reconstructed geometry in the history. However, reconstructing a global 3D scene from multiple views inevitably introduces cross-view misalignment, as pose and depth estimation errors cause the same surfaces to be reconstructed at slightly different 3D locations across views. When fused, these inconsistencies accumulate into noisy geometry that contaminates the conditioning signals and degrades generation quality. We introduce AnchorWeave, a memory-augmented video generation framework that replaces a single misaligned global memory with multiple clean local geometric memories and learns to reconcile their cross-view inconsistencies. To this end, AnchorWeave performs coverage-driven local memory retrieval aligned with the target trajectory and integrates the selected local memories through a multi-anchor weaving controller during generation. Extensive experiments demonstrate that AnchorWeave significantly improves long-term scene consistency while maintaining strong visual quality, with ablation and analysis studies further validating the effectiveness of local geometric conditioning, multi-anchor control, and coverage-driven retrieval.
PDF12February 18, 2026