Ridefinire la modellazione temporale nella diffusione video: L'Approccio a Passo Temporale Vettorizzato
Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach
October 4, 2024
Autori: Yaofang Liu, Yumeng Ren, Xiaodong Cun, Aitor Artola, Yang Liu, Tieyong Zeng, Raymond H. Chan, Jean-michel Morel
cs.AI
Abstract
I modelli di diffusione hanno rivoluzionato la generazione di immagini e l'estensione alla generazione di video ha mostrato promesse. Tuttavia, i modelli di diffusione video attuali (VDM) si basano su una variabile di timestep scalare applicata a livello di clip, il che limita la loro capacità di modellare complesse dipendenze temporali necessarie per varie attività come la generazione di immagini a video. Per affrontare questa limitazione, proponiamo un modello di diffusione video consapevole dei frame (FVDM), che introduce una nuova variabile di timestep vettorizzata (VTV). A differenza dei VDM convenzionali, il nostro approccio consente a ciascun frame di seguire un programma di rumore indipendente, potenziando la capacità del modello di catturare dipendenze temporali dettagliate. La flessibilità di FVDM è dimostrata in diverse attività, tra cui la generazione standard di video, la generazione di immagini a video, l'interpolazione video e la sintesi di video lunghi. Attraverso una serie diversificata di configurazioni VTV, otteniamo una qualità superiore nei video generati, superando sfide come il dimenticamento catastrofico durante il raffinamento e la limitata generalizzabilità nei metodi zero-shot. Le nostre valutazioni empiriche mostrano che FVDM supera i metodi all'avanguardia in termini di qualità della generazione video, eccellendo anche in attività estese. Affrontando le carenze fondamentali nei VDM esistenti, FVDM stabilisce un nuovo paradigma nella sintesi video, offrendo un quadro robusto con significative implicazioni per la modellazione generativa e le applicazioni multimediali.
English
Diffusion models have revolutionized image generation, and their extension to
video generation has shown promise. However, current video diffusion
models~(VDMs) rely on a scalar timestep variable applied at the clip level,
which limits their ability to model complex temporal dependencies needed for
various tasks like image-to-video generation. To address this limitation, we
propose a frame-aware video diffusion model~(FVDM), which introduces a novel
vectorized timestep variable~(VTV). Unlike conventional VDMs, our approach
allows each frame to follow an independent noise schedule, enhancing the
model's capacity to capture fine-grained temporal dependencies. FVDM's
flexibility is demonstrated across multiple tasks, including standard video
generation, image-to-video generation, video interpolation, and long video
synthesis. Through a diverse set of VTV configurations, we achieve superior
quality in generated videos, overcoming challenges such as catastrophic
forgetting during fine-tuning and limited generalizability in zero-shot
methods.Our empirical evaluations show that FVDM outperforms state-of-the-art
methods in video generation quality, while also excelling in extended tasks. By
addressing fundamental shortcomings in existing VDMs, FVDM sets a new paradigm
in video synthesis, offering a robust framework with significant implications
for generative modeling and multimedia applications.