Modèles de diffusion hiérarchique par patchs pour la génération de vidéos haute résolution
Hierarchical Patch Diffusion Models for High-Resolution Video Generation
June 12, 2024
Auteurs: Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov
cs.AI
Résumé
Les modèles de diffusion ont démontré des performances remarquables dans la synthèse d'images et de vidéos. Cependant, leur mise à l'échelle pour des entrées haute résolution est un défi et nécessite une restructuration du pipeline de diffusion en plusieurs composants indépendants, ce qui limite l'évolutivité et complique les applications en aval. Cela les rend très efficaces pendant l'entraînement et permet une optimisation de bout en bout sur des vidéos haute résolution. Nous améliorons les PDM (Patch Diffusion Models) de deux manières fondamentales. Premièrement, pour assurer la cohérence entre les patches, nous développons la fusion contextuelle profonde -- une technique architecturale qui propage l'information contextuelle des patches à basse échelle vers ceux à haute échelle de manière hiérarchique. Deuxièmement, pour accélérer l'entraînement et l'inférence, nous proposons le calcul adaptatif, qui alloue davantage de capacité et de calcul du réseau vers les détails grossiers de l'image. Le modèle résultant établit un nouveau record avec un score FVD de 66,32 et un score Inception de 87,68 dans la génération de vidéos conditionnées par classe sur UCF-101 256^2, surpassant les méthodes récentes de plus de 100%. Ensuite, nous montrons qu'il peut être rapidement affiné à partir d'un générateur de base 36 fois 64 en basse résolution pour la synthèse de vidéos texte-à-vidéo haute résolution 64 fois 288 fois 512. À notre connaissance, notre modèle est la première architecture basée sur la diffusion entraînée sur de telles hautes résolutions entièrement de bout en bout. Page du projet : https://snap-research.github.io/hpdm.
English
Diffusion models have demonstrated remarkable performance in image and video
synthesis. However, scaling them to high-resolution inputs is challenging and
requires restructuring the diffusion pipeline into multiple independent
components, limiting scalability and complicating downstream applications. This
makes it very efficient during training and unlocks end-to-end optimization on
high-resolution videos. We improve PDMs in two principled ways. First, to
enforce consistency between patches, we develop deep context fusion -- an
architectural technique that propagates the context information from low-scale
to high-scale patches in a hierarchical manner. Second, to accelerate training
and inference, we propose adaptive computation, which allocates more network
capacity and computation towards coarse image details. The resulting model sets
a new state-of-the-art FVD score of 66.32 and Inception Score of 87.68 in
class-conditional video generation on UCF-101 256^2, surpassing recent
methods by more than 100%. Then, we show that it can be rapidly fine-tuned from
a base 36times 64 low-resolution generator for high-resolution 64 times
288 times 512 text-to-video synthesis. To the best of our knowledge, our
model is the first diffusion-based architecture which is trained on such high
resolutions entirely end-to-end. Project webpage:
https://snap-research.github.io/hpdm.Summary
AI-Generated Summary