ChatPaper.aiChatPaper

Hiërarchische Patch Diffusiemodellen voor Generatie van Hoogwaardige Video's

Hierarchical Patch Diffusion Models for High-Resolution Video Generation

June 12, 2024
Auteurs: Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov
cs.AI

Samenvatting

Diffusiemodellen hebben opmerkelijke prestaties getoond in beeld- en videosynthese. Het opschalen ervan naar hoge-resolutie inputs is echter uitdagend en vereist een herstructurering van de diffusiepijplijn in meerdere onafhankelijke componenten, wat de schaalbaarheid beperkt en downstream toepassingen compliceert. Dit maakt het zeer efficiënt tijdens de training en maakt end-to-end optimalisatie op hoge-resolutie video's mogelijk. We verbeteren PDMs op twee principiële manieren. Ten eerste ontwikkelen we, om consistentie tussen patches te waarborgen, deep context fusion -- een architecturale techniek die contextinformatie op een hiërarchische manier van lage-schaal naar hoge-schaal patches doorgeeft. Ten tweede stellen we, om training en inferentie te versnellen, adaptieve berekening voor, die meer netwerkcapaciteit en berekening toewijst aan grove beelddetails. Het resulterende model behaalt een nieuwe state-of-the-art FVD-score van 66.32 en een Inception Score van 87.68 in klasse-conditionele videogeneratie op UCF-101 256^2, wat recente methoden met meer dan 100% overtreft. Vervolgens tonen we aan dat het snel kan worden afgestemd vanuit een basis 36x64 lage-resolutie generator voor hoge-resolutie 64x288x512 tekst-naar-video synthese. Voor zover wij weten, is ons model het eerste diffusie-gebaseerde architectuur dat op dergelijke hoge resoluties volledig end-to-end wordt getraind. Projectwebpagina: https://snap-research.github.io/hpdm.
English
Diffusion models have demonstrated remarkable performance in image and video synthesis. However, scaling them to high-resolution inputs is challenging and requires restructuring the diffusion pipeline into multiple independent components, limiting scalability and complicating downstream applications. This makes it very efficient during training and unlocks end-to-end optimization on high-resolution videos. We improve PDMs in two principled ways. First, to enforce consistency between patches, we develop deep context fusion -- an architectural technique that propagates the context information from low-scale to high-scale patches in a hierarchical manner. Second, to accelerate training and inference, we propose adaptive computation, which allocates more network capacity and computation towards coarse image details. The resulting model sets a new state-of-the-art FVD score of 66.32 and Inception Score of 87.68 in class-conditional video generation on UCF-101 256^2, surpassing recent methods by more than 100%. Then, we show that it can be rapidly fine-tuned from a base 36times 64 low-resolution generator for high-resolution 64 times 288 times 512 text-to-video synthesis. To the best of our knowledge, our model is the first diffusion-based architecture which is trained on such high resolutions entirely end-to-end. Project webpage: https://snap-research.github.io/hpdm.
PDF160February 7, 2026