A^2RD: Агентная авторегрессивная диффузия для согласованности длинных видео
A^2RD: Agentic Autoregressive Diffusion for Long Video Consistency
May 7, 2026
Авторы: Do Xuan Long, Yale Song, Min-Yen Kan, Tomas Pfister, Long T. Le
cs.AI
Аннотация
Синтез согласованного и когерентного длинного видео остается фундаментальной проблемой. Существующие методы страдают от семантического дрейфа и коллапса нарратива на длинных горизонтах. Мы представляем A²RD — агентную авторегрессионную диффузионную архитектуру, разделяющую творческий синтез и поддержание согласованности. A²RD формулирует синтез длинного видео как замкнутый процесс, который синтезирует и самостоятельно улучшает видео сегмент за сегментом посредством цикла "Извлечение–Синтез–Уточнение–Обновление". Он включает три основных компонента: (i) Мультимодальная видеопамять, отслеживающая развитие видео по модальностям; (ii) Адаптивная генерация сегментов, переключающая режимы генерации для естественного прогрессирования и визуальной согласованности; (iii) Иерархическое самоулучшение во время тестирования, которое самостоятельно улучшает каждый сегмент на уровне кадров и видео, предотвращая распространение ошибок. Мы также представляем LVBench-C — сложный бенчмарк с нелинейными переходами сущностей и окружения для стресс-тестирования долгосрочной согласованности. На общедоступных бенчмарках и LVBench-C, охватывающих видео длительностью от одной до десяти минут, A²RD превосходит современные базовые методы на величину до 30% по согласованности и на 20% по нарративной когерентности. Оценки человеком подтверждают эти улучшения, а также выявляют заметные улучшения плавности движения и переходов.
English
Synthesizing consistent and coherent long video remains a fundamental challenge. Existing methods suffer from semantic drift and narrative collapse over long horizons. We present A^2RD, an Agentic Auto-Regressive Diffusion architecture that decouples creative synthesis from consistency enforcement. A^2RD formulates long video synthesis as a closed-loop process that synthesizes and self-improves video segment-by-segment through a Retrieve--Synthesize--Refine--Update cycle. It comprises three core components: (i) Multimodal Video Memory that tracks video progression across modalities; (ii) Adaptive Segment Generation that switches among generation modes for natural progression and visual consistency; and (iii) Hierarchical Test-Time Self-Improvement that self-improves each segment at frame and video levels to prevent error propagation. We further introduce LVBench-C, a challenging benchmark with non-linear entity and environment transitions to stress-test long-horizon consistency. Across public and LVBench-C benchmarks spanning one- to ten-minute videos, A^2RD outperforms state-of-the-art baselines by up to 30% in consistency and 20% in narrative coherence. Human evaluations corroborate these gains while also highlighting notable improvements in motion and transition smoothness.