AnchorWeave: Wereldconsistente Videogeneratie met Opgehaalde Lokale Ruimtelijke Herinneringen

Samenvatting

Het behouden van ruimtelijke wereldconsistentie over lange tijdshorizons blijft een centrale uitdaging voor camerabestuurbare videogeneratie. Bestaande op geheugen gebaseerde benaderingen conditioneren de generatie vaak op globaal gereconstrueerde 3D-scènes door ankervideo's te renderen vanuit de gereconstrueerde geometrie in de geschiedenis. Het reconstrueren van een globale 3D-scène vanuit meerdere gezichtspunten introduceert echter onvermijdelijk uitlijningsfouten tussen views, omdat fouten in pose- en diepteschatting ervoor zorgen dat dezelfde oppervlakken op lichtjes verschillende 3D-locaties worden gereconstrueerd across views. Bij het samenvoegen hopen deze inconsistenties zich op tot ruisgeometrie die de conditioneringssignalen vervuilt en de generatiekwaliteit aantast. Wij introduceren AnchorWeave, een met geheugen versterkt videogeneratieraamwerk dat een enkele fout uitgelijnd globaal geheugen vervangt door meerdere schone lokale geometrische geheugens en leert om hun inconsistenties tussen views te verzoenen. Hiertoe voert AnchorWeave een dekking-gestuurde lokale geheugenretrieval uit, uitgelijnd met de doeltrajectorie, en integreert het de geselecteerde lokale geheugens via een multi-anker weefcontroller tijdens de generatie. Uitgebreide experimenten tonen aan dat AnchorWeave de consistentie van langdurige scènes aanzienlijk verbetert terwijl een sterke visuele kwaliteit behouden blijft, waarbij ablatie- en analyseonderzoeken de effectiviteit van lokale geometrische conditionering, multi-ankercontrole en dekking-gestuurde retrieval verder valideren.

English

Maintaining spatial world consistency over long horizons remains a central challenge for camera-controllable video generation. Existing memory-based approaches often condition generation on globally reconstructed 3D scenes by rendering anchor videos from the reconstructed geometry in the history. However, reconstructing a global 3D scene from multiple views inevitably introduces cross-view misalignment, as pose and depth estimation errors cause the same surfaces to be reconstructed at slightly different 3D locations across views. When fused, these inconsistencies accumulate into noisy geometry that contaminates the conditioning signals and degrades generation quality. We introduce AnchorWeave, a memory-augmented video generation framework that replaces a single misaligned global memory with multiple clean local geometric memories and learns to reconcile their cross-view inconsistencies. To this end, AnchorWeave performs coverage-driven local memory retrieval aligned with the target trajectory and integrates the selected local memories through a multi-anchor weaving controller during generation. Extensive experiments demonstrate that AnchorWeave significantly improves long-term scene consistency while maintaining strong visual quality, with ablation and analysis studies further validating the effectiveness of local geometric conditioning, multi-anchor control, and coverage-driven retrieval.

AnchorWeave: Wereldconsistente Videogeneratie met Opgehaalde Lokale Ruimtelijke Herinneringen

AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories

Samenvatting

Support