Modelli di Diffusione a Patch Gerarchici per la Generazione di Video ad Alta Risoluzione
Hierarchical Patch Diffusion Models for High-Resolution Video Generation
June 12, 2024
Autori: Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov
cs.AI
Abstract
I modelli di diffusione hanno dimostrato prestazioni notevoli nella sintesi di immagini e video. Tuttavia, scalare questi modelli per input ad alta risoluzione è impegnativo e richiede una ristrutturazione della pipeline di diffusione in più componenti indipendenti, limitando la scalabilità e complicando le applicazioni downstream. Questo rende il processo molto efficiente durante l'addestramento e sblocca l'ottimizzazione end-to-end su video ad alta risoluzione. Miglioriamo i PDM (Patch Diffusion Models) in due modi principiali. Innanzitutto, per garantire la coerenza tra le patch, sviluppiamo la fusione contestuale profonda (deep context fusion) — una tecnica architetturale che propaga le informazioni contestuali dalle patch a bassa scala a quelle ad alta scala in modo gerarchico. In secondo luogo, per accelerare l'addestramento e l'inferenza, proponiamo il calcolo adattivo (adaptive computation), che assegna maggiore capacità di rete e calcolo ai dettagli grossolani dell'immagine. Il modello risultante stabilisce un nuovo stato dell'arte con un punteggio FVD di 66.32 e un Inception Score di 87.68 nella generazione di video condizionata per classe su UCF-101 256^2, superando i metodi recenti di oltre il 100%. Inoltre, dimostriamo che può essere rapidamente fine-tuned a partire da un generatore di bassa risoluzione 36×64 per la sintesi video ad alta risoluzione 64×288×512 da testo a video. Per quanto ne sappiamo, il nostro modello è la prima architettura basata su diffusione addestrata su tali risoluzioni interamente end-to-end. Pagina del progetto: https://snap-research.github.io/hpdm.
English
Diffusion models have demonstrated remarkable performance in image and video
synthesis. However, scaling them to high-resolution inputs is challenging and
requires restructuring the diffusion pipeline into multiple independent
components, limiting scalability and complicating downstream applications. This
makes it very efficient during training and unlocks end-to-end optimization on
high-resolution videos. We improve PDMs in two principled ways. First, to
enforce consistency between patches, we develop deep context fusion -- an
architectural technique that propagates the context information from low-scale
to high-scale patches in a hierarchical manner. Second, to accelerate training
and inference, we propose adaptive computation, which allocates more network
capacity and computation towards coarse image details. The resulting model sets
a new state-of-the-art FVD score of 66.32 and Inception Score of 87.68 in
class-conditional video generation on UCF-101 256^2, surpassing recent
methods by more than 100%. Then, we show that it can be rapidly fine-tuned from
a base 36times 64 low-resolution generator for high-resolution 64 times
288 times 512 text-to-video synthesis. To the best of our knowledge, our
model is the first diffusion-based architecture which is trained on such high
resolutions entirely end-to-end. Project webpage:
https://snap-research.github.io/hpdm.