Modelos Hierárquicos de Difusão de Fragmentos para Geração de Vídeos de Alta Resolução

Resumo

Os modelos de difusão têm demonstrado desempenho notável na síntese de imagens e vídeos. No entanto, escaloná-los para entradas de alta resolução é desafiador e requer a reestruturação do pipeline de difusão em múltiplos componentes independentes, limitando a escalabilidade e complicando aplicações subsequentes. Isso o torna muito eficiente durante o treinamento e permite a otimização de ponta a ponta em vídeos de alta resolução. Melhoramos os PDMs (Patch Diffusion Models) de duas maneiras fundamentais. Primeiro, para garantir a consistência entre os patches, desenvolvemos a fusão de contexto profunda — uma técnica arquitetônica que propaga as informações de contexto de patches de baixa escala para patches de alta escala de maneira hierárquica. Segundo, para acelerar o treinamento e a inferência, propomos a computação adaptativa, que aloca mais capacidade da rede e computação para detalhes grosseiros da imagem. O modelo resultante estabelece um novo estado da arte com pontuação FVD de 66,32 e Inception Score de 87,68 na geração de vídeos condicionados por classe no UCF-101 256^2, superando métodos recentes em mais de 100%. Em seguida, mostramos que ele pode ser rapidamente ajustado a partir de um gerador de baixa resolução 36x64 para síntese de vídeo de alta resolução 64x288x512 a partir de texto. Até onde sabemos, nosso modelo é a primeira arquitetura baseada em difusão treinada em tais altas resoluções inteiramente de ponta a ponta. Página do projeto: https://snap-research.github.io/hpdm.

English

Diffusion models have demonstrated remarkable performance in image and video synthesis. However, scaling them to high-resolution inputs is challenging and requires restructuring the diffusion pipeline into multiple independent components, limiting scalability and complicating downstream applications. This makes it very efficient during training and unlocks end-to-end optimization on high-resolution videos. We improve PDMs in two principled ways. First, to enforce consistency between patches, we develop deep context fusion -- an architectural technique that propagates the context information from low-scale to high-scale patches in a hierarchical manner. Second, to accelerate training and inference, we propose adaptive computation, which allocates more network capacity and computation towards coarse image details. The resulting model sets a new state-of-the-art FVD score of 66.32 and Inception Score of 87.68 in class-conditional video generation on UCF-101 256^2, surpassing recent methods by more than 100%. Then, we show that it can be rapidly fine-tuned from a base 36times 64 low-resolution generator for high-resolution 64 times 288 times 512 text-to-video synthesis. To the best of our knowledge, our model is the first diffusion-based architecture which is trained on such high resolutions entirely end-to-end. Project webpage: https://snap-research.github.io/hpdm.

Modelos Hierárquicos de Difusão de Fragmentos para Geração de Vídeos de Alta Resolução

Hierarchical Patch Diffusion Models for High-Resolution Video Generation

Resumo

Support