Анализ ошибок авторегрессивных моделей диффузии видео: унифицированная структура

Аннотация

Различные авторегрессивные модели диффузии видео (ARVDM) достигли значительных успехов в генерации реалистичных длинных видеороликов. Однако теоретический анализ этих моделей остается недостаточно изученным. В данной работе мы разрабатываем теоретические основы для этих моделей и используем полученные инсайты для улучшения производительности существующих моделей. Сначала мы представляем Meta-ARVDM — унифицированную структуру ARVDM, которая охватывает большинство существующих методов. Используя Meta-ARVDM, мы анализируем расхождение Кульбака-Лейблера (KL-дивергенцию) между видео, сгенерированными Meta-ARVDM, и реальными видео. Наш анализ выявляет два важных явления, присущих ARVDM: накопление ошибок и узкое место в памяти. С помощью вывода информационно-теоретического результата о невозможности мы показываем, что явление узкого места в памяти невозможно избежать. Для смягчения узкого места в памяти мы разрабатываем различные структуры сетей, которые явно используют больше прошлых кадров. Мы также достигаем значительно улучшенного баланса между смягчением узкого места в памяти и эффективностью вывода путем сжатия кадров. Экспериментальные результаты на DMLab и Minecraft подтверждают эффективность наших методов. Наши эксперименты также демонстрируют Парето-границу между накоплением ошибок и узким местом в памяти для различных методов.

English

A variety of Auto-Regressive Video Diffusion Models (ARVDM) have achieved remarkable successes in generating realistic long-form videos. However, theoretical analyses of these models remain scant. In this work, we develop theoretical underpinnings for these models and use our insights to improve the performance of existing models. We first develop Meta-ARVDM, a unified framework of ARVDMs that subsumes most existing methods. Using Meta-ARVDM, we analyze the KL-divergence between the videos generated by Meta-ARVDM and the true videos. Our analysis uncovers two important phenomena inherent to ARVDM -- error accumulation and memory bottleneck. By deriving an information-theoretic impossibility result, we show that the memory bottleneck phenomenon cannot be avoided. To mitigate the memory bottleneck, we design various network structures to explicitly use more past frames. We also achieve a significantly improved trade-off between the mitigation of the memory bottleneck and the inference efficiency by compressing the frames. Experimental results on DMLab and Minecraft validate the efficacy of our methods. Our experiments also demonstrate a Pareto-frontier between the error accumulation and memory bottleneck across different methods.