Hierarchische Patch-Diffusionsmodelle für die Generierung von hochauflösenden Videos
Hierarchical Patch Diffusion Models for High-Resolution Video Generation
June 12, 2024
Autoren: Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov
cs.AI
Zusammenfassung
Diffusionsmodelle haben eine bemerkenswerte Leistung bei der Bild- und Videosynthese gezeigt. Das Skalieren auf hochauflösende Eingaben ist jedoch eine Herausforderung und erfordert die Umstrukturierung des Diffusions-Pipelines in mehrere unabhängige Komponenten, was die Skalierbarkeit einschränkt und die nachgelagerten Anwendungen kompliziert. Dies macht es sehr effizient während des Trainings und ermöglicht eine End-to-End-Optimierung von hochauflösenden Videos. Wir verbessern PDMs auf zwei prinzipielle Arten. Erstens entwickeln wir zur Durchsetzung der Konsistenz zwischen Patches die Deep Context Fusion - eine architektonische Technik, die die Kontextinformationen von niedrigskaligen zu hochskaligen Patches hierarchisch propagiert. Zweitens schlagen wir zur Beschleunigung des Trainings und der Inferenz die adaptive Berechnung vor, die mehr Netzwerkkapazität und Berechnung für grobe Bilddetails zuweist. Das resultierende Modell erreicht einen neuen State-of-the-Art FVD-Score von 66,32 und einen Inception-Score von 87,68 bei der klassenbedingten Videogenerierung auf UCF-101 256^2 und übertrifft damit aktuelle Methoden um mehr als 100%. Anschließend zeigen wir, dass es schnell von einem Basis-36-mal-64-Niedrigauflösungs-Generator für die Hochauflösungs-64-mal-288-mal-512-Text-zu-Video-Synthese feinabgestimmt werden kann. Unseres Wissens nach ist unser Modell die erste auf Diffusion basierende Architektur, die vollständig end-to-end auf solch hohen Auflösungen trainiert wird. Projektwebseite: https://snap-research.github.io/hpdm.
English
Diffusion models have demonstrated remarkable performance in image and video
synthesis. However, scaling them to high-resolution inputs is challenging and
requires restructuring the diffusion pipeline into multiple independent
components, limiting scalability and complicating downstream applications. This
makes it very efficient during training and unlocks end-to-end optimization on
high-resolution videos. We improve PDMs in two principled ways. First, to
enforce consistency between patches, we develop deep context fusion -- an
architectural technique that propagates the context information from low-scale
to high-scale patches in a hierarchical manner. Second, to accelerate training
and inference, we propose adaptive computation, which allocates more network
capacity and computation towards coarse image details. The resulting model sets
a new state-of-the-art FVD score of 66.32 and Inception Score of 87.68 in
class-conditional video generation on UCF-101 256^2, surpassing recent
methods by more than 100%. Then, we show that it can be rapidly fine-tuned from
a base 36times 64 low-resolution generator for high-resolution 64 times
288 times 512 text-to-video synthesis. To the best of our knowledge, our
model is the first diffusion-based architecture which is trained on such high
resolutions entirely end-to-end. Project webpage:
https://snap-research.github.io/hpdm.Summary
AI-Generated Summary