Анализ ошибок авторегрессивных моделей диффузии видео: унифицированная структура
Error Analyses of Auto-Regressive Video Diffusion Models: A Unified Framework
March 12, 2025
Авторы: Jing Wang, Fengzhuo Zhang, Xiaoli Li, Vincent Y. F. Tan, Tianyu Pang, Chao Du, Aixin Sun, Zhuoran Yang
cs.AI
Аннотация
Различные авторегрессивные модели диффузии видео (ARVDM) достигли значительных успехов в генерации реалистичных длинных видеороликов. Однако теоретический анализ этих моделей остается недостаточно изученным. В данной работе мы разрабатываем теоретические основы для этих моделей и используем полученные инсайты для улучшения производительности существующих моделей. Сначала мы представляем Meta-ARVDM — унифицированную структуру ARVDM, которая охватывает большинство существующих методов. Используя Meta-ARVDM, мы анализируем расхождение Кульбака-Лейблера (KL-дивергенцию) между видео, сгенерированными Meta-ARVDM, и реальными видео. Наш анализ выявляет два важных явления, присущих ARVDM: накопление ошибок и узкое место в памяти. С помощью вывода информационно-теоретического результата о невозможности мы показываем, что явление узкого места в памяти невозможно избежать. Для смягчения узкого места в памяти мы разрабатываем различные структуры сетей, которые явно используют больше прошлых кадров. Мы также достигаем значительно улучшенного баланса между смягчением узкого места в памяти и эффективностью вывода путем сжатия кадров. Экспериментальные результаты на DMLab и Minecraft подтверждают эффективность наших методов. Наши эксперименты также демонстрируют Парето-границу между накоплением ошибок и узким местом в памяти для различных методов.
English
A variety of Auto-Regressive Video Diffusion Models (ARVDM) have achieved
remarkable successes in generating realistic long-form videos. However,
theoretical analyses of these models remain scant. In this work, we develop
theoretical underpinnings for these models and use our insights to improve the
performance of existing models. We first develop Meta-ARVDM, a unified
framework of ARVDMs that subsumes most existing methods. Using Meta-ARVDM, we
analyze the KL-divergence between the videos generated by Meta-ARVDM and the
true videos. Our analysis uncovers two important phenomena inherent to ARVDM --
error accumulation and memory bottleneck. By deriving an information-theoretic
impossibility result, we show that the memory bottleneck phenomenon cannot be
avoided. To mitigate the memory bottleneck, we design various network
structures to explicitly use more past frames. We also achieve a significantly
improved trade-off between the mitigation of the memory bottleneck and the
inference efficiency by compressing the frames. Experimental results on DMLab
and Minecraft validate the efficacy of our methods. Our experiments also
demonstrate a Pareto-frontier between the error accumulation and memory
bottleneck across different methods.Summary
AI-Generated Summary