Hierarchische Patch-Diffusionsmodelle für die Generierung von hochauflösenden Videos

Zusammenfassung

Diffusionsmodelle haben eine bemerkenswerte Leistung bei der Bild- und Videosynthese gezeigt. Das Skalieren auf hochauflösende Eingaben ist jedoch eine Herausforderung und erfordert die Umstrukturierung des Diffusions-Pipelines in mehrere unabhängige Komponenten, was die Skalierbarkeit einschränkt und die nachgelagerten Anwendungen kompliziert. Dies macht es sehr effizient während des Trainings und ermöglicht eine End-to-End-Optimierung von hochauflösenden Videos. Wir verbessern PDMs auf zwei prinzipielle Arten. Erstens entwickeln wir zur Durchsetzung der Konsistenz zwischen Patches die Deep Context Fusion - eine architektonische Technik, die die Kontextinformationen von niedrigskaligen zu hochskaligen Patches hierarchisch propagiert. Zweitens schlagen wir zur Beschleunigung des Trainings und der Inferenz die adaptive Berechnung vor, die mehr Netzwerkkapazität und Berechnung für grobe Bilddetails zuweist. Das resultierende Modell erreicht einen neuen State-of-the-Art FVD-Score von 66,32 und einen Inception-Score von 87,68 bei der klassenbedingten Videogenerierung auf UCF-101 256^2 und übertrifft damit aktuelle Methoden um mehr als 100%. Anschließend zeigen wir, dass es schnell von einem Basis-36-mal-64-Niedrigauflösungs-Generator für die Hochauflösungs-64-mal-288-mal-512-Text-zu-Video-Synthese feinabgestimmt werden kann. Unseres Wissens nach ist unser Modell die erste auf Diffusion basierende Architektur, die vollständig end-to-end auf solch hohen Auflösungen trainiert wird. Projektwebseite: https://snap-research.github.io/hpdm.

English

Diffusion models have demonstrated remarkable performance in image and video synthesis. However, scaling them to high-resolution inputs is challenging and requires restructuring the diffusion pipeline into multiple independent components, limiting scalability and complicating downstream applications. This makes it very efficient during training and unlocks end-to-end optimization on high-resolution videos. We improve PDMs in two principled ways. First, to enforce consistency between patches, we develop deep context fusion -- an architectural technique that propagates the context information from low-scale to high-scale patches in a hierarchical manner. Second, to accelerate training and inference, we propose adaptive computation, which allocates more network capacity and computation towards coarse image details. The resulting model sets a new state-of-the-art FVD score of 66.32 and Inception Score of 87.68 in class-conditional video generation on UCF-101 256^2, surpassing recent methods by more than 100%. Then, we show that it can be rapidly fine-tuned from a base 36times 64 low-resolution generator for high-resolution 64 times 288 times 512 text-to-video synthesis. To the best of our knowledge, our model is the first diffusion-based architecture which is trained on such high resolutions entirely end-to-end. Project webpage: https://snap-research.github.io/hpdm.

Hierarchische Patch-Diffusionsmodelle für die Generierung von hochauflösenden Videos

Hierarchical Patch Diffusion Models for High-Resolution Video Generation

Zusammenfassung

Summary

Support

Support