ChatPaper.aiChatPaper

Modelos de Difusión Jerárquica de Parches para la Generación de Vídeo de Alta Resolución

Hierarchical Patch Diffusion Models for High-Resolution Video Generation

June 12, 2024
Autores: Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov
cs.AI

Resumen

Los modelos de difusión han demostrado un rendimiento notable en la síntesis de imágenes y videos. Sin embargo, escalarlos a entradas de alta resolución es un desafío y requiere reestructurar la canalización de difusión en múltiples componentes independientes, lo que limita la escalabilidad y complica las aplicaciones posteriores. Esto lo hace muy eficiente durante el entrenamiento y permite la optimización de extremo a extremo en videos de alta resolución. Mejoramos los modelos de difusión en dos formas fundamentales. Primero, para garantizar la consistencia entre los parches, desarrollamos la fusión de contexto profunda, una técnica arquitectónica que propaga la información de contexto desde parches de baja escala a parches de alta escala de manera jerárquica. Segundo, para acelerar el entrenamiento y la inferencia, proponemos el cómputo adaptativo, que asigna más capacidad de red y cómputo hacia los detalles gruesos de la imagen. El modelo resultante establece un nuevo estado del arte con un puntaje FVD de 66.32 y un Inception Score de 87.68 en la generación de videos condicionados por clase en UCF-101 256^2, superando métodos recientes en más del 100%. Luego, mostramos que puede ajustarse rápidamente desde un generador base de baja resolución de 36x64 para la síntesis de texto a video de alta resolución de 64x288x512. Hasta donde sabemos, nuestro modelo es la primera arquitectura basada en difusión que se entrena en tales resoluciones completamente de extremo a extremo. Página del proyecto: https://snap-research.github.io/hpdm.
English
Diffusion models have demonstrated remarkable performance in image and video synthesis. However, scaling them to high-resolution inputs is challenging and requires restructuring the diffusion pipeline into multiple independent components, limiting scalability and complicating downstream applications. This makes it very efficient during training and unlocks end-to-end optimization on high-resolution videos. We improve PDMs in two principled ways. First, to enforce consistency between patches, we develop deep context fusion -- an architectural technique that propagates the context information from low-scale to high-scale patches in a hierarchical manner. Second, to accelerate training and inference, we propose adaptive computation, which allocates more network capacity and computation towards coarse image details. The resulting model sets a new state-of-the-art FVD score of 66.32 and Inception Score of 87.68 in class-conditional video generation on UCF-101 256^2, surpassing recent methods by more than 100%. Then, we show that it can be rapidly fine-tuned from a base 36times 64 low-resolution generator for high-resolution 64 times 288 times 512 text-to-video synthesis. To the best of our knowledge, our model is the first diffusion-based architecture which is trained on such high resolutions entirely end-to-end. Project webpage: https://snap-research.github.io/hpdm.

Summary

AI-Generated Summary

PDF160December 8, 2024