MarDini: Difusão Autoregressiva Mascara para Geração de Vídeo em Escala

Resumo

Apresentamos MarDini, uma nova família de modelos de difusão de vídeo que integram as vantagens da auto-regressão mascarada (MAR) em um framework unificado de modelo de difusão (DM). Aqui, o MAR lida com o planejamento temporal, enquanto o DM se concentra na geração espacial em um design de rede assimétrica: i) um modelo de planejamento baseado em MAR contendo a maioria dos parâmetros gera sinais de planejamento para cada quadro mascarado usando entrada de baixa resolução; ii) um modelo de geração leve utiliza esses sinais para produzir quadros de alta resolução por meio de desembaçamento por difusão. O MAR do MarDini permite a geração de vídeo condicionada a qualquer número de quadros mascarados em quaisquer posições de quadro: um único modelo pode lidar com interpolação de vídeo (por exemplo, mascarando quadros intermediários), geração de imagem para vídeo (por exemplo, mascarando a partir do segundo quadro em diante) e expansão de vídeo (por exemplo, mascarando metade dos quadros). O design eficiente aloca a maioria dos recursos computacionais ao modelo de planejamento de baixa resolução, tornando viável em escala a atenção espaço-temporal computacionalmente cara, mas importante. MarDini estabelece um novo estado-da-arte para interpolação de vídeo; enquanto isso, em poucas etapas de inferência, ele gera vídeos de forma eficiente em pé de igualdade com os de modelos avançados de imagem para vídeo muito mais caros.

English

We introduce MarDini, a new family of video diffusion models that integrate the advantages of masked auto-regression (MAR) into a unified diffusion model (DM) framework. Here, MAR handles temporal planning, while DM focuses on spatial generation in an asymmetric network design: i) a MAR-based planning model containing most of the parameters generates planning signals for each masked frame using low-resolution input; ii) a lightweight generation model uses these signals to produce high-resolution frames via diffusion de-noising. MarDini's MAR enables video generation conditioned on any number of masked frames at any frame positions: a single model can handle video interpolation (e.g., masking middle frames), image-to-video generation (e.g., masking from the second frame onward), and video expansion (e.g., masking half the frames). The efficient design allocates most of the computational resources to the low-resolution planning model, making computationally expensive but important spatio-temporal attention feasible at scale. MarDini sets a new state-of-the-art for video interpolation; meanwhile, within few inference steps, it efficiently generates videos on par with those of much more expensive advanced image-to-video models.

MarDini: Difusão Autoregressiva Mascara para Geração de Vídeo em Escala

MarDini: Masked Autoregressive Diffusion for Video Generation at Scale

Resumo

Support