Иерархические модели диффузии патчей для генерации видео высокого разрешения

Аннотация

Модели диффузии продемонстрировали выдающуюся производительность в синтезе изображений и видео. Однако масштабирование их до изображений высокого разрешения представляет собой сложную задачу, требующую перестройки конвейера диффузии на несколько независимых компонентов, что ограничивает масштабируемость и усложняет последующие приложения. Это делает их очень эффективными во время обучения и открывает возможность для оптимизации на видео высокого разрешения. Мы улучшаем модели диффузии путем двух принципиальных подходов. Во-первых, для обеспечения согласованности между патчами мы разрабатываем глубокое контекстное слияние - архитектурный метод, который передает информацию о контексте от патчей низкого разрешения к патчам высокого разрешения иерархическим образом. Во-вторых, для ускорения обучения и вывода мы предлагаем адаптивные вычисления, которые выделяют больше сетевых ресурсов и вычислений для грубых деталей изображения. Полученная модель устанавливает новый рекорд по FVD - 66.32 и Inception Score - 87.68 в генерации видео с условиями классов на UCF-101 256^2, превосходя недавние методы более чем на 100%. Затем мы показываем, что ее можно быстро донастроить от базового генератора низкого разрешения 36 на 64 для синтеза видео из текста высокого разрешения 64 на 288 на 512. На наш взгляд, наша модель является первой архитектурой на основе диффузии, которая обучается на таких высоких разрешениях полностью end-to-end. Веб-страница проекта: https://snap-research.github.io/hpdm.

English

Diffusion models have demonstrated remarkable performance in image and video synthesis. However, scaling them to high-resolution inputs is challenging and requires restructuring the diffusion pipeline into multiple independent components, limiting scalability and complicating downstream applications. This makes it very efficient during training and unlocks end-to-end optimization on high-resolution videos. We improve PDMs in two principled ways. First, to enforce consistency between patches, we develop deep context fusion -- an architectural technique that propagates the context information from low-scale to high-scale patches in a hierarchical manner. Second, to accelerate training and inference, we propose adaptive computation, which allocates more network capacity and computation towards coarse image details. The resulting model sets a new state-of-the-art FVD score of 66.32 and Inception Score of 87.68 in class-conditional video generation on UCF-101 256^2, surpassing recent methods by more than 100%. Then, we show that it can be rapidly fine-tuned from a base 36times 64 low-resolution generator for high-resolution 64 times 288 times 512 text-to-video synthesis. To the best of our knowledge, our model is the first diffusion-based architecture which is trained on such high resolutions entirely end-to-end. Project webpage: https://snap-research.github.io/hpdm.

Иерархические модели диффузии патчей для генерации видео высокого разрешения

Hierarchical Patch Diffusion Models for High-Resolution Video Generation

Аннотация

Support