ChatPaper.aiChatPaper

Amostragem de Vídeo de Zero-shot de Granularidade Fina

Fine-gained Zero-shot Video Sampling

July 31, 2024
Autores: Dengsheng Chen, Jie Hu, Xiaoming Wei, Enhua Wu
cs.AI

Resumo

Incorporar uma dimensão temporal em modelos de difusão de imagens pré-treinados para geração de vídeos é uma abordagem prevalente. No entanto, esse método é computacionalmente exigente e requer grandes conjuntos de dados de vídeos. Mais criticamente, a heterogeneidade entre conjuntos de dados de imagens e vídeos frequentemente resulta em esquecimento catastrófico da expertise em imagens. Tentativas recentes de extrair trechos de vídeo diretamente de modelos de difusão de imagens têm mitigado em certa medida esses problemas. No entanto, esses métodos só conseguem gerar breves clipes de vídeo com movimentos simples e falham em capturar movimentos detalhados ou deformações não lineares. Neste artigo, propomos um novo algoritmo de Amostragem de Vídeo Sem Supervisão, denominado ZS^2, capaz de amostrar diretamente clipes de vídeo de alta qualidade a partir de métodos existentes de síntese de imagens, como Difusão Estável, sem necessidade de treinamento ou otimização. Especificamente, ZS^2 utiliza o modelo de ruído de dependência e a atenção de momento temporal para garantir consistência de conteúdo e coerência de animação, respectivamente. Essa capacidade permite que ele se destaque em tarefas relacionadas, como geração de vídeo condicional e especializada em contexto e edição de vídeo guiada por instruções. Resultados experimentais demonstram que ZS^2 alcança desempenho de ponta em geração de vídeo sem supervisão, ocasionalmente superando métodos supervisionados recentes. Página inicial: https://densechen.github.io/zss/.
English
Incorporating a temporal dimension into pretrained image diffusion models for video generation is a prevalent approach. However, this method is computationally demanding and necessitates large-scale video datasets. More critically, the heterogeneity between image and video datasets often results in catastrophic forgetting of the image expertise. Recent attempts to directly extract video snippets from image diffusion models have somewhat mitigated these problems. Nevertheless, these methods can only generate brief video clips with simple movements and fail to capture fine-grained motion or non-grid deformation. In this paper, we propose a novel Zero-Shot video Sampling algorithm, denoted as ZS^2, capable of directly sampling high-quality video clips from existing image synthesis methods, such as Stable Diffusion, without any training or optimization. Specifically, ZS^2 utilizes the dependency noise model and temporal momentum attention to ensure content consistency and animation coherence, respectively. This ability enables it to excel in related tasks, such as conditional and context-specialized video generation and instruction-guided video editing. Experimental results demonstrate that ZS^2 achieves state-of-the-art performance in zero-shot video generation, occasionally outperforming recent supervised methods. Homepage: https://densechen.github.io/zss/.

Summary

AI-Generated Summary

PDF62November 28, 2024