MarDini: Difusão Autoregressiva Mascara para Geração de Vídeo em Escala
MarDini: Masked Autoregressive Diffusion for Video Generation at Scale
October 26, 2024
Autores: Haozhe Liu, Shikun Liu, Zijian Zhou, Mengmeng Xu, Yanping Xie, Xiao Han, Juan C. Pérez, Ding Liu, Kumara Kahatapitiya, Menglin Jia, Jui-Chieh Wu, Sen He, Tao Xiang, Jürgen Schmidhuber, Juan-Manuel Pérez-Rúa
cs.AI
Resumo
Apresentamos MarDini, uma nova família de modelos de difusão de vídeo que integram as vantagens da auto-regressão mascarada (MAR) em um framework unificado de modelo de difusão (DM). Aqui, o MAR lida com o planejamento temporal, enquanto o DM se concentra na geração espacial em um design de rede assimétrica: i) um modelo de planejamento baseado em MAR contendo a maioria dos parâmetros gera sinais de planejamento para cada quadro mascarado usando entrada de baixa resolução; ii) um modelo de geração leve utiliza esses sinais para produzir quadros de alta resolução por meio de desembaçamento por difusão. O MAR do MarDini permite a geração de vídeo condicionada a qualquer número de quadros mascarados em quaisquer posições de quadro: um único modelo pode lidar com interpolação de vídeo (por exemplo, mascarando quadros intermediários), geração de imagem para vídeo (por exemplo, mascarando a partir do segundo quadro em diante) e expansão de vídeo (por exemplo, mascarando metade dos quadros). O design eficiente aloca a maioria dos recursos computacionais ao modelo de planejamento de baixa resolução, tornando viável em escala a atenção espaço-temporal computacionalmente cara, mas importante. MarDini estabelece um novo estado-da-arte para interpolação de vídeo; enquanto isso, em poucas etapas de inferência, ele gera vídeos de forma eficiente em pé de igualdade com os de modelos avançados de imagem para vídeo muito mais caros.
English
We introduce MarDini, a new family of video diffusion models that integrate
the advantages of masked auto-regression (MAR) into a unified diffusion model
(DM) framework. Here, MAR handles temporal planning, while DM focuses on
spatial generation in an asymmetric network design: i) a MAR-based planning
model containing most of the parameters generates planning signals for each
masked frame using low-resolution input; ii) a lightweight generation model
uses these signals to produce high-resolution frames via diffusion de-noising.
MarDini's MAR enables video generation conditioned on any number of masked
frames at any frame positions: a single model can handle video interpolation
(e.g., masking middle frames), image-to-video generation (e.g., masking from
the second frame onward), and video expansion (e.g., masking half the frames).
The efficient design allocates most of the computational resources to the
low-resolution planning model, making computationally expensive but important
spatio-temporal attention feasible at scale. MarDini sets a new
state-of-the-art for video interpolation; meanwhile, within few inference
steps, it efficiently generates videos on par with those of much more expensive
advanced image-to-video models.Summary
AI-Generated Summary