ChatPaper.aiChatPaper

A^2RD: Agentische autoregressive Diffusion für die Konsistenz langer Videos

A^2RD: Agentic Autoregressive Diffusion for Long Video Consistency

May 7, 2026
Autoren: Do Xuan Long, Yale Song, Min-Yen Kan, Tomas Pfister, Long T. Le
cs.AI

Zusammenfassung

Die Synthese konsistenter und kohärenter langer Videos bleibt eine grundlegende Herausforderung. Bestehende Methoden leiden bei langen Zeithorizonten unter semantischer Drift und narrativem Zusammenbruch. Wir stellen A²RD vor, eine agentische autoregressive Diffusionsarchitektur, die kreative Synthese von Konsistenzsicherung entkoppelt. A²RD formuliert die Synthese langer Videos als einen geschlossenen Regelkreis, der Videoabschnitte segmentweise synthetisiert und selbstverbessert – durch einen Abrufen–Synthetisieren–Verbessern–Aktualisieren-Zyklus. Es umfasst drei Kernkomponenten: (i) einen multimodalen Videospelcher, der den Videoverlauf über Modalitäten hinweg verfolgt; (ii) eine adaptive Segmenterzeugung, die zwischen Erzeugungsmodi für natürlichen Fortschritt und visuelle Konsistenz umschaltet; und (iii) eine hierarchische Testzeit-Selbstverbesserung, die jedes Segment auf Einzelbild- und Videoebene selbst verbessert, um Fehlerfortpflanzung zu verhindern. Wir führen ferner LVBench-C ein, eine anspruchsvolle Benchmark mit nichtlinearen Entitäts- und Umgebungsübergängen, um die Langzeitkonsistenz zu testen. Über öffentliche Benchmarks und LVBench-C hinweg, die Videos von einer bis zehn Minuten abdecken, übertrifft A²RD die aktuellen Baselines um bis zu 30 % in der Konsistenz und 20 % in der narrativen Kohärenz. Menschliche Bewertungen bestätigen diese Verbesserungen und heben zudem bemerkenswerte Fortschritte bei der Bewegungs- und Übergangsglätte hervor.
English
Synthesizing consistent and coherent long video remains a fundamental challenge. Existing methods suffer from semantic drift and narrative collapse over long horizons. We present A^2RD, an Agentic Auto-Regressive Diffusion architecture that decouples creative synthesis from consistency enforcement. A^2RD formulates long video synthesis as a closed-loop process that synthesizes and self-improves video segment-by-segment through a Retrieve--Synthesize--Refine--Update cycle. It comprises three core components: (i) Multimodal Video Memory that tracks video progression across modalities; (ii) Adaptive Segment Generation that switches among generation modes for natural progression and visual consistency; and (iii) Hierarchical Test-Time Self-Improvement that self-improves each segment at frame and video levels to prevent error propagation. We further introduce LVBench-C, a challenging benchmark with non-linear entity and environment transitions to stress-test long-horizon consistency. Across public and LVBench-C benchmarks spanning one- to ten-minute videos, A^2RD outperforms state-of-the-art baselines by up to 30% in consistency and 20% in narrative coherence. Human evaluations corroborate these gains while also highlighting notable improvements in motion and transition smoothness.
PDF121May 12, 2026