Иерархические модели диффузии патчей для генерации видео высокого разрешения
Hierarchical Patch Diffusion Models for High-Resolution Video Generation
June 12, 2024
Авторы: Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov
cs.AI
Аннотация
Модели диффузии продемонстрировали выдающуюся производительность в синтезе изображений и видео. Однако масштабирование их до изображений высокого разрешения представляет собой сложную задачу, требующую перестройки конвейера диффузии на несколько независимых компонентов, что ограничивает масштабируемость и усложняет последующие приложения. Это делает их очень эффективными во время обучения и открывает возможность для оптимизации на видео высокого разрешения. Мы улучшаем модели диффузии путем двух принципиальных подходов. Во-первых, для обеспечения согласованности между патчами мы разрабатываем глубокое контекстное слияние - архитектурный метод, который передает информацию о контексте от патчей низкого разрешения к патчам высокого разрешения иерархическим образом. Во-вторых, для ускорения обучения и вывода мы предлагаем адаптивные вычисления, которые выделяют больше сетевых ресурсов и вычислений для грубых деталей изображения. Полученная модель устанавливает новый рекорд по FVD - 66.32 и Inception Score - 87.68 в генерации видео с условиями классов на UCF-101 256^2, превосходя недавние методы более чем на 100%. Затем мы показываем, что ее можно быстро донастроить от базового генератора низкого разрешения 36 на 64 для синтеза видео из текста высокого разрешения 64 на 288 на 512. На наш взгляд, наша модель является первой архитектурой на основе диффузии, которая обучается на таких высоких разрешениях полностью end-to-end. Веб-страница проекта: https://snap-research.github.io/hpdm.
English
Diffusion models have demonstrated remarkable performance in image and video
synthesis. However, scaling them to high-resolution inputs is challenging and
requires restructuring the diffusion pipeline into multiple independent
components, limiting scalability and complicating downstream applications. This
makes it very efficient during training and unlocks end-to-end optimization on
high-resolution videos. We improve PDMs in two principled ways. First, to
enforce consistency between patches, we develop deep context fusion -- an
architectural technique that propagates the context information from low-scale
to high-scale patches in a hierarchical manner. Second, to accelerate training
and inference, we propose adaptive computation, which allocates more network
capacity and computation towards coarse image details. The resulting model sets
a new state-of-the-art FVD score of 66.32 and Inception Score of 87.68 in
class-conditional video generation on UCF-101 256^2, surpassing recent
methods by more than 100%. Then, we show that it can be rapidly fine-tuned from
a base 36times 64 low-resolution generator for high-resolution 64 times
288 times 512 text-to-video synthesis. To the best of our knowledge, our
model is the first diffusion-based architecture which is trained on such high
resolutions entirely end-to-end. Project webpage:
https://snap-research.github.io/hpdm.Summary
AI-Generated Summary