A^2RD : Diffusion autorégressive agentique pour la cohérence des vidéos longues

Résumé

Synthétiser des vidéos longues, cohérentes et homogènes demeure un défi fondamental. Les méthodes existantes souffrent de dérive sémantique et d'effondrement narratif sur de longs horizons temporels. Nous présentons A²RD, une architecture de diffusion auto-régressive agentique qui dissocie la synthèse créative du maintien de la cohérence. A²RD aborde la synthèse vidéo longue comme un processus en boucle fermée qui génère et s'améliore automatiquement, segment par segment, via un cycle de Récupération - Synthèse - Raffinement - Mise à jour. L'architecture comprend trois composants essentiels : (i) une Mémoire Vidéo Multimodale qui suit la progression vidéo à travers les modalités ; (ii) une Génération Adaptative de Segments qui alterne entre différents modes de génération pour assurer une progression naturelle et une cohérence visuelle ; et (iii) une Auto-Amélioration Hiérarchique en Test, qui affine chaque segment aux niveaux de l'image et de la vidéo afin d'empêcher la propagation d'erreurs. Nous introduisons également LVBench-C, un jeu de référence exigeant comportant des transitions non linéaires d'entités et d'environnements, conçu pour éprouver la cohérence sur de longs horizons. Sur les jeux de référence publics et LVBench-C, couvrant des vidéos d'une à dix minutes, A²RD surpasse les modèles de base de pointe avec des gains allant jusqu'à 30 % en cohérence et 20 % en cohérence narrative. Les évaluations humaines confirment ces améliorations tout en soulignant des progrès notables en matière de fluidité des mouvements et des transitions.

English

Synthesizing consistent and coherent long video remains a fundamental challenge. Existing methods suffer from semantic drift and narrative collapse over long horizons. We present A^2RD, an Agentic Auto-Regressive Diffusion architecture that decouples creative synthesis from consistency enforcement. A^2RD formulates long video synthesis as a closed-loop process that synthesizes and self-improves video segment-by-segment through a Retrieve--Synthesize--Refine--Update cycle. It comprises three core components: (i) Multimodal Video Memory that tracks video progression across modalities; (ii) Adaptive Segment Generation that switches among generation modes for natural progression and visual consistency; and (iii) Hierarchical Test-Time Self-Improvement that self-improves each segment at frame and video levels to prevent error propagation. We further introduce LVBench-C, a challenging benchmark with non-linear entity and environment transitions to stress-test long-horizon consistency. Across public and LVBench-C benchmarks spanning one- to ten-minute videos, A^2RD outperforms state-of-the-art baselines by up to 30% in consistency and 20% in narrative coherence. Human evaluations corroborate these gains while also highlighting notable improvements in motion and transition smoothness.

A^2RD : Diffusion autorégressive agentique pour la cohérence des vidéos longues

A^2RD: Agentic Autoregressive Diffusion for Long Video Consistency

Résumé

Support