Muestreo de video de cero disparos de granularidad fina.
Fine-gained Zero-shot Video Sampling
July 31, 2024
Autores: Dengsheng Chen, Jie Hu, Xiaoming Wei, Enhua Wu
cs.AI
Resumen
Incorporar una dimensión temporal en modelos de difusión de imágenes preentrenados para la generación de videos es un enfoque prevalente. Sin embargo, este método es exigente computacionalmente y requiere conjuntos de datos de videos a gran escala. Más críticamente, la heterogeneidad entre conjuntos de datos de imágenes y videos a menudo resulta en un olvido catastrófico de la experiencia en imágenes. Los intentos recientes de extraer fragmentos de video directamente de modelos de difusión de imágenes han mitigado en cierta medida estos problemas. Sin embargo, estos métodos solo pueden generar breves clips de video con movimientos simples y no logran capturar movimientos detallados o deformaciones no en cuadrícula. En este documento, proponemos un algoritmo novedoso de Muestreo de Video sin Entrenamiento, denominado ZS^2, capaz de muestrear directamente clips de video de alta calidad de métodos existentes de síntesis de imágenes, como Difusión Estable, sin ningún entrenamiento u optimización. Específicamente, ZS^2 utiliza el modelo de ruido de dependencia y la atención temporal de momento para garantizar la consistencia de contenido y la coherencia de animación, respectivamente. Esta capacidad le permite destacarse en tareas relacionadas, como la generación de videos condicionales y especializados en contexto y la edición de videos guiada por instrucciones. Los resultados experimentales demuestran que ZS^2 logra un rendimiento de vanguardia en la generación de videos sin entrenamiento, superando ocasionalmente a métodos supervisados recientes.
Página principal: https://densechen.github.io/zss/.
English
Incorporating a temporal dimension into pretrained image diffusion models for
video generation is a prevalent approach. However, this method is
computationally demanding and necessitates large-scale video datasets. More
critically, the heterogeneity between image and video datasets often results in
catastrophic forgetting of the image expertise. Recent attempts to directly
extract video snippets from image diffusion models have somewhat mitigated
these problems. Nevertheless, these methods can only generate brief video clips
with simple movements and fail to capture fine-grained motion or non-grid
deformation. In this paper, we propose a novel Zero-Shot video Sampling
algorithm, denoted as ZS^2, capable of directly sampling
high-quality video clips from existing image synthesis methods, such as Stable
Diffusion, without any training or optimization. Specifically, ZS^2
utilizes the dependency noise model and temporal momentum attention to ensure
content consistency and animation coherence, respectively. This ability enables
it to excel in related tasks, such as conditional and context-specialized video
generation and instruction-guided video editing. Experimental results
demonstrate that ZS^2 achieves state-of-the-art performance in
zero-shot video generation, occasionally outperforming recent supervised
methods.
Homepage: https://densechen.github.io/zss/.Summary
AI-Generated Summary