ChatPaper.aiChatPaper

A²RD: Agentische Autoregressieve Diffusie voor Consistentie in Lange Video's

A^2RD: Agentic Autoregressive Diffusion for Long Video Consistency

May 7, 2026
Auteurs: Do Xuan Long, Yale Song, Min-Yen Kan, Tomas Pfister, Long T. Le
cs.AI

Samenvatting

Het synthetiseren van consistente en coherente lange video's blijft een fundamentele uitdaging. Bestaande methoden lijden onder semantische drift en narratieve ineenstorting over lange tijdshorizonten. Wij presenteren A²RD, een Agentische Autoregressieve Diffusiearchitectuur die creatieve synthese loskoppelt van consistentiehandhaving. A²RD formuleert lange videosynthese als een gesloten-loopproces dat video segment voor segment synthetiseert en zelf verbetert via een Retrieve–Synthesize–Refine–Update-cyclus. Het omvat drie kerncomponenten: (i) Multimodaal Videogeheugen dat videoprogressie over modaliteiten bijhoudt; (ii) Adaptieve Segmentgeneratie die schakelt tussen generatiemodi voor natuurlijke voortgang en visuele consistentie; en (iii) Hiërarchische Zelfverbetering tijdens de testfase die elk segment op frame- en videoniveau zelf verbetert om foutenvoortplanting te voorkomen. We introduceren verder LVBench-C, een uitdagende benchmark met niet-lineaire entiteits- en omgevingsovergangen om de consistentie over lange horizonnen te stress-testen. Op publieke benchmarks en LVBench-C, variërend van één tot tien minuten durende video's, presteert A²RD tot 30% beter dan state-of-the-art baselines in consistentie en 20% in narratieve coherentie. Menselijke evaluaties bevestigen deze winst en benadrukken ook opmerkelijke verbeteringen in bewegings- en overgangsvloeiendheid.
English
Synthesizing consistent and coherent long video remains a fundamental challenge. Existing methods suffer from semantic drift and narrative collapse over long horizons. We present A^2RD, an Agentic Auto-Regressive Diffusion architecture that decouples creative synthesis from consistency enforcement. A^2RD formulates long video synthesis as a closed-loop process that synthesizes and self-improves video segment-by-segment through a Retrieve--Synthesize--Refine--Update cycle. It comprises three core components: (i) Multimodal Video Memory that tracks video progression across modalities; (ii) Adaptive Segment Generation that switches among generation modes for natural progression and visual consistency; and (iii) Hierarchical Test-Time Self-Improvement that self-improves each segment at frame and video levels to prevent error propagation. We further introduce LVBench-C, a challenging benchmark with non-linear entity and environment transitions to stress-test long-horizon consistency. Across public and LVBench-C benchmarks spanning one- to ten-minute videos, A^2RD outperforms state-of-the-art baselines by up to 30% in consistency and 20% in narrative coherence. Human evaluations corroborate these gains while also highlighting notable improvements in motion and transition smoothness.
PDF121May 12, 2026