Modelos Hierárquicos de Difusão de Fragmentos para Geração de Vídeos de Alta Resolução
Hierarchical Patch Diffusion Models for High-Resolution Video Generation
June 12, 2024
Autores: Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov
cs.AI
Resumo
Os modelos de difusão têm demonstrado desempenho notável na síntese de imagens e vídeos. No entanto, escaloná-los para entradas de alta resolução é desafiador e requer a reestruturação do pipeline de difusão em múltiplos componentes independentes, limitando a escalabilidade e complicando aplicações subsequentes. Isso o torna muito eficiente durante o treinamento e permite a otimização de ponta a ponta em vídeos de alta resolução. Melhoramos os PDMs (Patch Diffusion Models) de duas maneiras fundamentais. Primeiro, para garantir a consistência entre os patches, desenvolvemos a fusão de contexto profunda — uma técnica arquitetônica que propaga as informações de contexto de patches de baixa escala para patches de alta escala de maneira hierárquica. Segundo, para acelerar o treinamento e a inferência, propomos a computação adaptativa, que aloca mais capacidade da rede e computação para detalhes grosseiros da imagem. O modelo resultante estabelece um novo estado da arte com pontuação FVD de 66,32 e Inception Score de 87,68 na geração de vídeos condicionados por classe no UCF-101 256^2, superando métodos recentes em mais de 100%. Em seguida, mostramos que ele pode ser rapidamente ajustado a partir de um gerador de baixa resolução 36x64 para síntese de vídeo de alta resolução 64x288x512 a partir de texto. Até onde sabemos, nosso modelo é a primeira arquitetura baseada em difusão treinada em tais altas resoluções inteiramente de ponta a ponta. Página do projeto: https://snap-research.github.io/hpdm.
English
Diffusion models have demonstrated remarkable performance in image and video
synthesis. However, scaling them to high-resolution inputs is challenging and
requires restructuring the diffusion pipeline into multiple independent
components, limiting scalability and complicating downstream applications. This
makes it very efficient during training and unlocks end-to-end optimization on
high-resolution videos. We improve PDMs in two principled ways. First, to
enforce consistency between patches, we develop deep context fusion -- an
architectural technique that propagates the context information from low-scale
to high-scale patches in a hierarchical manner. Second, to accelerate training
and inference, we propose adaptive computation, which allocates more network
capacity and computation towards coarse image details. The resulting model sets
a new state-of-the-art FVD score of 66.32 and Inception Score of 87.68 in
class-conditional video generation on UCF-101 256^2, surpassing recent
methods by more than 100%. Then, we show that it can be rapidly fine-tuned from
a base 36times 64 low-resolution generator for high-resolution 64 times
288 times 512 text-to-video synthesis. To the best of our knowledge, our
model is the first diffusion-based architecture which is trained on such high
resolutions entirely end-to-end. Project webpage:
https://snap-research.github.io/hpdm.