Redefinindo a Modelagem Temporal na Difusão de Vídeo: A Abordagem de Intervalo de Tempo Vetorizado
Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach
October 4, 2024
Autores: Yaofang Liu, Yumeng Ren, Xiaodong Cun, Aitor Artola, Yang Liu, Tieyong Zeng, Raymond H. Chan, Jean-michel Morel
cs.AI
Resumo
Os modelos de difusão revolucionaram a geração de imagens, e sua extensão para a geração de vídeos tem mostrado promessa. No entanto, os modelos de difusão de vídeo atuais (VDMs) dependem de uma variável de passo escalar aplicada no nível do clipe, o que limita sua capacidade de modelar dependências temporais complexas necessárias para várias tarefas, como geração de imagem para vídeo. Para lidar com essa limitação, propomos um modelo de difusão de vídeo consciente de quadro (FVDM), que introduz uma nova variável de passo vetorizada (VTV). Ao contrário dos VDMs convencionais, nossa abordagem permite que cada quadro siga um cronograma de ruído independente, aprimorando a capacidade do modelo de capturar dependências temporais detalhadas. A flexibilidade do FVDM é demonstrada em várias tarefas, incluindo geração de vídeo padrão, geração de imagem para vídeo, interpolação de vídeo e síntese de vídeo longo. Através de um conjunto diversificado de configurações de VTV, alcançamos qualidade superior em vídeos gerados, superando desafios como esquecimento catastrófico durante o ajuste fino e generalização limitada em métodos de zero-shot. Nossas avaliações empíricas mostram que o FVDM supera os métodos de ponta em qualidade de geração de vídeo, destacando-se também em tarefas estendidas. Ao abordar deficiências fundamentais nos VDMs existentes, o FVDM estabelece um novo paradigma na síntese de vídeo, oferecendo um framework robusto com implicações significativas para modelagem generativa e aplicações multimídia.
English
Diffusion models have revolutionized image generation, and their extension to
video generation has shown promise. However, current video diffusion
models~(VDMs) rely on a scalar timestep variable applied at the clip level,
which limits their ability to model complex temporal dependencies needed for
various tasks like image-to-video generation. To address this limitation, we
propose a frame-aware video diffusion model~(FVDM), which introduces a novel
vectorized timestep variable~(VTV). Unlike conventional VDMs, our approach
allows each frame to follow an independent noise schedule, enhancing the
model's capacity to capture fine-grained temporal dependencies. FVDM's
flexibility is demonstrated across multiple tasks, including standard video
generation, image-to-video generation, video interpolation, and long video
synthesis. Through a diverse set of VTV configurations, we achieve superior
quality in generated videos, overcoming challenges such as catastrophic
forgetting during fine-tuning and limited generalizability in zero-shot
methods.Our empirical evaluations show that FVDM outperforms state-of-the-art
methods in video generation quality, while also excelling in extended tasks. By
addressing fundamental shortcomings in existing VDMs, FVDM sets a new paradigm
in video synthesis, offering a robust framework with significant implications
for generative modeling and multimedia applications.Summary
AI-Generated Summary