AnchorWeave: Geração de Vídeo Consistente com o Mundo por meio de Memórias Espaciais Locais Recuperadas

Resumo

A manutenção da consistência do mundo espacial em horizontes longos permanece um desafio central para a geração de vídeo controlável por câmera. As abordagens baseadas em memória existentes frequentemente condicionam a geração em cenas 3D reconstruídas globalmente, renderizando vídeos âncora a partir da geometria reconstruída no histórico. No entanto, a reconstrução de uma cena 3D global a partir de múltiplas visões introduz inevitavelmente desalinhamentos entre visões, uma vez que erros de estimativa de pose e profundidade fazem com que as mesmas superfícies sejam reconstruídas em locais 3D ligeiramente diferentes entre as visões. Quando fundidas, essas inconsistências se acumulam em uma geometria ruidosa que contamina os sinais de condicionamento e degrada a qualidade da geração. Apresentamos o AnchorWeave, uma estrutura de geração de vídeo aumentada por memória que substitui uma única memória global desalinhada por múltiplas memórias geométricas locais limpas e aprende a reconciliar suas inconsistências entre visões. Para isso, o AnchorWeave realiza uma recuperação de memória local orientada por cobertura alinhada com a trajetória alvo e integra as memórias locais selecionadas por meio de um controlador de tecelagem multi-âncora durante a geração. Experimentos extensivos demonstram que o AnchorWeave melhora significativamente a consistência de cena de longo prazo, mantendo uma forte qualidade visual, com estudos de ablação e análise validando ainda mais a eficácia do condicionamento geométrico local, do controle multi-âncora e da recuperação orientada por cobertura.

English

Maintaining spatial world consistency over long horizons remains a central challenge for camera-controllable video generation. Existing memory-based approaches often condition generation on globally reconstructed 3D scenes by rendering anchor videos from the reconstructed geometry in the history. However, reconstructing a global 3D scene from multiple views inevitably introduces cross-view misalignment, as pose and depth estimation errors cause the same surfaces to be reconstructed at slightly different 3D locations across views. When fused, these inconsistencies accumulate into noisy geometry that contaminates the conditioning signals and degrades generation quality. We introduce AnchorWeave, a memory-augmented video generation framework that replaces a single misaligned global memory with multiple clean local geometric memories and learns to reconcile their cross-view inconsistencies. To this end, AnchorWeave performs coverage-driven local memory retrieval aligned with the target trajectory and integrates the selected local memories through a multi-anchor weaving controller during generation. Extensive experiments demonstrate that AnchorWeave significantly improves long-term scene consistency while maintaining strong visual quality, with ablation and analysis studies further validating the effectiveness of local geometric conditioning, multi-anchor control, and coverage-driven retrieval.

AnchorWeave: Geração de Vídeo Consistente com o Mundo por meio de Memórias Espaciais Locais Recuperadas

AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories

Resumo

Support