ChatPaper.aiChatPaper

MarDini: Difusión Autoregresiva Enmascarada para la Generación de Video a Escala

MarDini: Masked Autoregressive Diffusion for Video Generation at Scale

October 26, 2024
Autores: Haozhe Liu, Shikun Liu, Zijian Zhou, Mengmeng Xu, Yanping Xie, Xiao Han, Juan C. Pérez, Ding Liu, Kumara Kahatapitiya, Menglin Jia, Jui-Chieh Wu, Sen He, Tao Xiang, Jürgen Schmidhuber, Juan-Manuel Pérez-Rúa
cs.AI

Resumen

Presentamos MarDini, una nueva familia de modelos de difusión de video que integran las ventajas de la auto-regresión enmascarada (MAR) en un marco unificado de modelo de difusión (DM). Aquí, MAR se encarga de la planificación temporal, mientras que DM se centra en la generación espacial en un diseño de red asimétrica: i) un modelo de planificación basado en MAR que contiene la mayoría de los parámetros genera señales de planificación para cada fotograma enmascarado utilizando una entrada de baja resolución; ii) un modelo de generación ligero utiliza estas señales para producir fotogramas de alta resolución a través de la desenmascaración por difusión. El MAR de MarDini permite la generación de video condicionada a cualquier número de fotogramas enmascarados en cualquier posición de fotograma: un solo modelo puede manejar la interpolación de video (por ejemplo, enmascaramiento de fotogramas intermedios), generación de imagen a video (por ejemplo, enmascaramiento desde el segundo fotograma en adelante) y expansión de video (por ejemplo, enmascaramiento de la mitad de los fotogramas). El diseño eficiente asigna la mayoría de los recursos computacionales al modelo de planificación de baja resolución, lo que hace factible a gran escala una atención espacio-temporal computacionalmente costosa pero importante. MarDini establece un nuevo estado del arte para la interpolación de video; mientras tanto, en pocos pasos de inferencia, genera videos de manera eficiente al nivel de modelos avanzados mucho más costosos de imagen a video.
English
We introduce MarDini, a new family of video diffusion models that integrate the advantages of masked auto-regression (MAR) into a unified diffusion model (DM) framework. Here, MAR handles temporal planning, while DM focuses on spatial generation in an asymmetric network design: i) a MAR-based planning model containing most of the parameters generates planning signals for each masked frame using low-resolution input; ii) a lightweight generation model uses these signals to produce high-resolution frames via diffusion de-noising. MarDini's MAR enables video generation conditioned on any number of masked frames at any frame positions: a single model can handle video interpolation (e.g., masking middle frames), image-to-video generation (e.g., masking from the second frame onward), and video expansion (e.g., masking half the frames). The efficient design allocates most of the computational resources to the low-resolution planning model, making computationally expensive but important spatio-temporal attention feasible at scale. MarDini sets a new state-of-the-art for video interpolation; meanwhile, within few inference steps, it efficiently generates videos on par with those of much more expensive advanced image-to-video models.

Summary

AI-Generated Summary

PDF232November 16, 2024