Modèles de diffusion hiérarchique par patchs pour la génération de vidéos haute résolution

Résumé

Les modèles de diffusion ont démontré des performances remarquables dans la synthèse d'images et de vidéos. Cependant, leur mise à l'échelle pour des entrées haute résolution est un défi et nécessite une restructuration du pipeline de diffusion en plusieurs composants indépendants, ce qui limite l'évolutivité et complique les applications en aval. Cela les rend très efficaces pendant l'entraînement et permet une optimisation de bout en bout sur des vidéos haute résolution. Nous améliorons les PDM (Patch Diffusion Models) de deux manières fondamentales. Premièrement, pour assurer la cohérence entre les patches, nous développons la fusion contextuelle profonde -- une technique architecturale qui propage l'information contextuelle des patches à basse échelle vers ceux à haute échelle de manière hiérarchique. Deuxièmement, pour accélérer l'entraînement et l'inférence, nous proposons le calcul adaptatif, qui alloue davantage de capacité et de calcul du réseau vers les détails grossiers de l'image. Le modèle résultant établit un nouveau record avec un score FVD de 66,32 et un score Inception de 87,68 dans la génération de vidéos conditionnées par classe sur UCF-101 256^2, surpassant les méthodes récentes de plus de 100%. Ensuite, nous montrons qu'il peut être rapidement affiné à partir d'un générateur de base 36 fois 64 en basse résolution pour la synthèse de vidéos texte-à-vidéo haute résolution 64 fois 288 fois 512. À notre connaissance, notre modèle est la première architecture basée sur la diffusion entraînée sur de telles hautes résolutions entièrement de bout en bout. Page du projet : https://snap-research.github.io/hpdm.

English

Diffusion models have demonstrated remarkable performance in image and video synthesis. However, scaling them to high-resolution inputs is challenging and requires restructuring the diffusion pipeline into multiple independent components, limiting scalability and complicating downstream applications. This makes it very efficient during training and unlocks end-to-end optimization on high-resolution videos. We improve PDMs in two principled ways. First, to enforce consistency between patches, we develop deep context fusion -- an architectural technique that propagates the context information from low-scale to high-scale patches in a hierarchical manner. Second, to accelerate training and inference, we propose adaptive computation, which allocates more network capacity and computation towards coarse image details. The resulting model sets a new state-of-the-art FVD score of 66.32 and Inception Score of 87.68 in class-conditional video generation on UCF-101 256^2, surpassing recent methods by more than 100%. Then, we show that it can be rapidly fine-tuned from a base 36times 64 low-resolution generator for high-resolution 64 times 288 times 512 text-to-video synthesis. To the best of our knowledge, our model is the first diffusion-based architecture which is trained on such high resolutions entirely end-to-end. Project webpage: https://snap-research.github.io/hpdm.

Modèles de diffusion hiérarchique par patchs pour la génération de vidéos haute résolution

Hierarchical Patch Diffusion Models for High-Resolution Video Generation

Résumé

Summary

Support

Support