MarDini: Маскированная авторегрессионная диффузия для генерации видео в масштабе.
MarDini: Masked Autoregressive Diffusion for Video Generation at Scale
October 26, 2024
Авторы: Haozhe Liu, Shikun Liu, Zijian Zhou, Mengmeng Xu, Yanping Xie, Xiao Han, Juan C. Pérez, Ding Liu, Kumara Kahatapitiya, Menglin Jia, Jui-Chieh Wu, Sen He, Tao Xiang, Jürgen Schmidhuber, Juan-Manuel Pérez-Rúa
cs.AI
Аннотация
Мы представляем MarDini, новое семейство моделей видеодиффузии, которые интегрируют преимущества маскированной авторегрессии (MAR) в единый фреймворк модели диффузии (DM). Здесь MAR отвечает за временное планирование, в то время как DM фокусируется на пространственной генерации в асимметричном дизайне сети: i) модель планирования на основе MAR, содержащая большинство параметров, генерирует сигналы планирования для каждого маскированного кадра, используя вход низкого разрешения; ii) легкая модель генерации использует эти сигналы для создания кадров высокого разрешения с помощью диффузионного шумоподавления. MAR в MarDini позволяет генерировать видео при условии любого количества маскированных кадров на любых позициях кадров: одна модель может обрабатывать интерполяцию видео (например, маскирование средних кадров), генерацию изображения в видео (например, маскирование со второго кадра и далее) и расширение видео (например, маскирование половины кадров). Эффективное конструирование распределяет большую часть вычислительных ресурсов на модель планирования низкого разрешения, делая вычислительно затратное, но важное пространственно-временное внимание выполнимым в масштабе. MarDini устанавливает новый уровень качества для интерполяции видео; тем временем, за несколько шагов вывода, он эффективно генерирует видео на уровне более дорогих передовых моделей изображения в видео.
English
We introduce MarDini, a new family of video diffusion models that integrate
the advantages of masked auto-regression (MAR) into a unified diffusion model
(DM) framework. Here, MAR handles temporal planning, while DM focuses on
spatial generation in an asymmetric network design: i) a MAR-based planning
model containing most of the parameters generates planning signals for each
masked frame using low-resolution input; ii) a lightweight generation model
uses these signals to produce high-resolution frames via diffusion de-noising.
MarDini's MAR enables video generation conditioned on any number of masked
frames at any frame positions: a single model can handle video interpolation
(e.g., masking middle frames), image-to-video generation (e.g., masking from
the second frame onward), and video expansion (e.g., masking half the frames).
The efficient design allocates most of the computational resources to the
low-resolution planning model, making computationally expensive but important
spatio-temporal attention feasible at scale. MarDini sets a new
state-of-the-art for video interpolation; meanwhile, within few inference
steps, it efficiently generates videos on par with those of much more expensive
advanced image-to-video models.Summary
AI-Generated Summary