Analisi degli Errori nei Modelli di Diffusione Video Auto-Regressivi: Un Framework Unificato
Error Analyses of Auto-Regressive Video Diffusion Models: A Unified Framework
March 12, 2025
Autori: Jing Wang, Fengzhuo Zhang, Xiaoli Li, Vincent Y. F. Tan, Tianyu Pang, Chao Du, Aixin Sun, Zhuoran Yang
cs.AI
Abstract
Una varietà di Modelli di Diffusione Video Auto-Regressivi (ARVDM) ha ottenuto risultati notevoli nella generazione di video realistici di lunga durata. Tuttavia, le analisi teoriche di questi modelli rimangono scarse. In questo lavoro, sviluppiamo i fondamenti teorici per questi modelli e utilizziamo le nostre intuizioni per migliorare le prestazioni dei modelli esistenti. Iniziamo sviluppando Meta-ARVDM, un framework unificato di ARVDM che comprende la maggior parte dei metodi esistenti. Utilizzando Meta-ARVDM, analizziamo la divergenza KL tra i video generati da Meta-ARVDM e i video reali. La nostra analisi rivela due importanti fenomeni intrinseci agli ARVDM: l'accumulo di errori e il collo di bottiglia della memoria. Derivando un risultato di impossibilità teorica dell'informazione, dimostriamo che il fenomeno del collo di bottiglia della memoria non può essere evitato. Per mitigare il collo di bottiglia della memoria, progettiamo varie strutture di rete per utilizzare esplicitamente più frame passati. Otteniamo anche un compromesso significativamente migliorato tra la mitigazione del collo di bottiglia della memoria e l'efficienza inferenziale comprimendo i frame. I risultati sperimentali su DMLab e Minecraft convalidano l'efficacia dei nostri metodi. I nostri esperimenti dimostrano anche una frontiera di Pareto tra l'accumulo di errori e il collo di bottiglia della memoria tra i diversi metodi.
English
A variety of Auto-Regressive Video Diffusion Models (ARVDM) have achieved
remarkable successes in generating realistic long-form videos. However,
theoretical analyses of these models remain scant. In this work, we develop
theoretical underpinnings for these models and use our insights to improve the
performance of existing models. We first develop Meta-ARVDM, a unified
framework of ARVDMs that subsumes most existing methods. Using Meta-ARVDM, we
analyze the KL-divergence between the videos generated by Meta-ARVDM and the
true videos. Our analysis uncovers two important phenomena inherent to ARVDM --
error accumulation and memory bottleneck. By deriving an information-theoretic
impossibility result, we show that the memory bottleneck phenomenon cannot be
avoided. To mitigate the memory bottleneck, we design various network
structures to explicitly use more past frames. We also achieve a significantly
improved trade-off between the mitigation of the memory bottleneck and the
inference efficiency by compressing the frames. Experimental results on DMLab
and Minecraft validate the efficacy of our methods. Our experiments also
demonstrate a Pareto-frontier between the error accumulation and memory
bottleneck across different methods.