ChatPaper.aiChatPaper

Análisis de Errores en Modelos de Difusión de Video Auto-Regresivos: Un Marco Unificado

Error Analyses of Auto-Regressive Video Diffusion Models: A Unified Framework

March 12, 2025
Autores: Jing Wang, Fengzhuo Zhang, Xiaoli Li, Vincent Y. F. Tan, Tianyu Pang, Chao Du, Aixin Sun, Zhuoran Yang
cs.AI

Resumen

Una variedad de Modelos de Difusión de Video Auto-Regresivos (ARVDM, por sus siglas en inglés) han logrado éxitos notables en la generación de videos de larga duración realistas. Sin embargo, los análisis teóricos de estos modelos siguen siendo escasos. En este trabajo, desarrollamos fundamentos teóricos para estos modelos y utilizamos nuestras ideas para mejorar el rendimiento de los modelos existentes. Primero, desarrollamos Meta-ARVDM, un marco unificado de ARVDM que engloba la mayoría de los métodos existentes. Utilizando Meta-ARVDM, analizamos la divergencia KL entre los videos generados por Meta-ARVDM y los videos reales. Nuestro análisis revela dos fenómenos importantes inherentes a ARVDM: la acumulación de errores y el cuello de botella de memoria. Al derivar un resultado de imposibilidad teórico de la información, demostramos que el fenómeno del cuello de botella de memoria no puede evitarse. Para mitigar el cuello de botella de memoria, diseñamos varias estructuras de red para utilizar explícitamente más fotogramas pasados. También logramos una mejora significativa en el equilibrio entre la mitigación del cuello de botella de memoria y la eficiencia de inferencia mediante la compresión de los fotogramas. Los resultados experimentales en DMLab y Minecraft validan la eficacia de nuestros métodos. Nuestros experimentos también demuestran una frontera de Pareto entre la acumulación de errores y el cuello de botella de memoria en diferentes métodos.
English
A variety of Auto-Regressive Video Diffusion Models (ARVDM) have achieved remarkable successes in generating realistic long-form videos. However, theoretical analyses of these models remain scant. In this work, we develop theoretical underpinnings for these models and use our insights to improve the performance of existing models. We first develop Meta-ARVDM, a unified framework of ARVDMs that subsumes most existing methods. Using Meta-ARVDM, we analyze the KL-divergence between the videos generated by Meta-ARVDM and the true videos. Our analysis uncovers two important phenomena inherent to ARVDM -- error accumulation and memory bottleneck. By deriving an information-theoretic impossibility result, we show that the memory bottleneck phenomenon cannot be avoided. To mitigate the memory bottleneck, we design various network structures to explicitly use more past frames. We also achieve a significantly improved trade-off between the mitigation of the memory bottleneck and the inference efficiency by compressing the frames. Experimental results on DMLab and Minecraft validate the efficacy of our methods. Our experiments also demonstrate a Pareto-frontier between the error accumulation and memory bottleneck across different methods.

Summary

AI-Generated Summary

PDF52March 18, 2025