A^2RD: Difusión Autoregresiva Agéntica para la Consistencia en Videos Largos
A^2RD: Agentic Autoregressive Diffusion for Long Video Consistency
May 7, 2026
Autores: Do Xuan Long, Yale Song, Min-Yen Kan, Tomas Pfister, Long T. Le
cs.AI
Resumen
La síntesis de videos largos consistentes y coherentes sigue siendo un desafío fundamental. Los métodos existentes sufren de deriva semántica y colapso narrativo en horizontes temporales prolongados. Presentamos A²RD, una arquitectura de Difusión Auto-Regresiva Agéntica que desacopla la síntesis creativa de la aplicación de consistencia. A²RD formula la síntesis de videos largos como un proceso de bucle cerrado que sintetiza y auto-mejora segmentos de video mediante un ciclo de Recuperar--Sintetizar--Refinar--Actualizar. Consta de tres componentes principales: (i) Memoria de Video Multimodal que rastrea la progresión del video a través de modalidades; (ii) Generación Adaptativa de Segmentos que alterna entre modos de generación para lograr progresión natural y consistencia visual; y (iii) Auto-Mejoramiento Jerárquico en Tiempo de Prueba que auto-mejora cada segmento a nivel de fotograma y video para evitar la propagación de errores. Además, presentamos LVBench-C, un benchmark desafiante con transiciones no lineales de entornos y entidades para evaluar rigurosamente la consistencia en horizontes prolongados. En benchmarks públicos y LVBench-C que abarcan videos de uno a diez minutos, A²RD supera a los métodos más avanzados en un 30% en consistencia y un 20% en coherencia narrativa. Las evaluaciones humanas corroboran estas mejoras y destacan avances notables en suavidad de movimiento y transiciones.
English
Synthesizing consistent and coherent long video remains a fundamental challenge. Existing methods suffer from semantic drift and narrative collapse over long horizons. We present A^2RD, an Agentic Auto-Regressive Diffusion architecture that decouples creative synthesis from consistency enforcement. A^2RD formulates long video synthesis as a closed-loop process that synthesizes and self-improves video segment-by-segment through a Retrieve--Synthesize--Refine--Update cycle. It comprises three core components: (i) Multimodal Video Memory that tracks video progression across modalities; (ii) Adaptive Segment Generation that switches among generation modes for natural progression and visual consistency; and (iii) Hierarchical Test-Time Self-Improvement that self-improves each segment at frame and video levels to prevent error propagation. We further introduce LVBench-C, a challenging benchmark with non-linear entity and environment transitions to stress-test long-horizon consistency. Across public and LVBench-C benchmarks spanning one- to ten-minute videos, A^2RD outperforms state-of-the-art baselines by up to 30% in consistency and 20% in narrative coherence. Human evaluations corroborate these gains while also highlighting notable improvements in motion and transition smoothness.