Analisi degli Errori nei Modelli di Diffusione Video Auto-Regressivi: Un Framework Unificato

Abstract

Una varietà di Modelli di Diffusione Video Auto-Regressivi (ARVDM) ha ottenuto risultati notevoli nella generazione di video realistici di lunga durata. Tuttavia, le analisi teoriche di questi modelli rimangono scarse. In questo lavoro, sviluppiamo i fondamenti teorici per questi modelli e utilizziamo le nostre intuizioni per migliorare le prestazioni dei modelli esistenti. Iniziamo sviluppando Meta-ARVDM, un framework unificato di ARVDM che comprende la maggior parte dei metodi esistenti. Utilizzando Meta-ARVDM, analizziamo la divergenza KL tra i video generati da Meta-ARVDM e i video reali. La nostra analisi rivela due importanti fenomeni intrinseci agli ARVDM: l'accumulo di errori e il collo di bottiglia della memoria. Derivando un risultato di impossibilità teorica dell'informazione, dimostriamo che il fenomeno del collo di bottiglia della memoria non può essere evitato. Per mitigare il collo di bottiglia della memoria, progettiamo varie strutture di rete per utilizzare esplicitamente più frame passati. Otteniamo anche un compromesso significativamente migliorato tra la mitigazione del collo di bottiglia della memoria e l'efficienza inferenziale comprimendo i frame. I risultati sperimentali su DMLab e Minecraft convalidano l'efficacia dei nostri metodi. I nostri esperimenti dimostrano anche una frontiera di Pareto tra l'accumulo di errori e il collo di bottiglia della memoria tra i diversi metodi.

English

A variety of Auto-Regressive Video Diffusion Models (ARVDM) have achieved remarkable successes in generating realistic long-form videos. However, theoretical analyses of these models remain scant. In this work, we develop theoretical underpinnings for these models and use our insights to improve the performance of existing models. We first develop Meta-ARVDM, a unified framework of ARVDMs that subsumes most existing methods. Using Meta-ARVDM, we analyze the KL-divergence between the videos generated by Meta-ARVDM and the true videos. Our analysis uncovers two important phenomena inherent to ARVDM -- error accumulation and memory bottleneck. By deriving an information-theoretic impossibility result, we show that the memory bottleneck phenomenon cannot be avoided. To mitigate the memory bottleneck, we design various network structures to explicitly use more past frames. We also achieve a significantly improved trade-off between the mitigation of the memory bottleneck and the inference efficiency by compressing the frames. Experimental results on DMLab and Minecraft validate the efficacy of our methods. Our experiments also demonstrate a Pareto-frontier between the error accumulation and memory bottleneck across different methods.

Analisi degli Errori nei Modelli di Diffusione Video Auto-Regressivi: Un Framework Unificato

Error Analyses of Auto-Regressive Video Diffusion Models: A Unified Framework

Abstract

Support