Échantillonnage vidéo zero-shot à granularité fine
Fine-gained Zero-shot Video Sampling
July 31, 2024
Auteurs: Dengsheng Chen, Jie Hu, Xiaoming Wei, Enhua Wu
cs.AI
Résumé
L'intégration d'une dimension temporelle dans les modèles de diffusion d'images pré-entraînés pour la génération de vidéos est une approche courante. Cependant, cette méthode est exigeante en termes de calcul et nécessite des ensembles de données vidéo à grande échelle. Plus crucial encore, l'hétérogénéité entre les ensembles de données d'images et de vidéos entraîne souvent un oubli catastrophique de l'expertise en images. Des tentatives récentes pour extraire directement des extraits vidéo à partir de modèles de diffusion d'images ont quelque peu atténué ces problèmes. Néanmoins, ces méthodes ne peuvent générer que de courts clips vidéo avec des mouvements simples et ne parviennent pas à capturer des mouvements fins ou des déformations non structurées. Dans cet article, nous proposons un nouvel algorithme d'échantillonnage vidéo Zero-Shot, dénommé ZS^2, capable de générer directement des clips vidéo de haute qualité à partir de méthodes de synthèse d'images existantes, telles que Stable Diffusion, sans aucun entraînement ou optimisation. Plus précisément, ZS^2 utilise le modèle de bruit de dépendance et l'attention à l'élan temporel pour assurer respectivement la cohérence du contenu et la fluidité de l'animation. Cette capacité lui permet d'exceller dans des tâches connexes, telles que la génération de vidéos conditionnelles et spécialisées dans un contexte, ainsi que l'édition de vidéos guidée par des instructions. Les résultats expérimentaux montrent que ZS^2 atteint des performances de pointe en génération de vidéos zero-shot, surpassant parfois les méthodes supervisées récentes.
Page d'accueil : https://densechen.github.io/zss/.
English
Incorporating a temporal dimension into pretrained image diffusion models for
video generation is a prevalent approach. However, this method is
computationally demanding and necessitates large-scale video datasets. More
critically, the heterogeneity between image and video datasets often results in
catastrophic forgetting of the image expertise. Recent attempts to directly
extract video snippets from image diffusion models have somewhat mitigated
these problems. Nevertheless, these methods can only generate brief video clips
with simple movements and fail to capture fine-grained motion or non-grid
deformation. In this paper, we propose a novel Zero-Shot video Sampling
algorithm, denoted as ZS^2, capable of directly sampling
high-quality video clips from existing image synthesis methods, such as Stable
Diffusion, without any training or optimization. Specifically, ZS^2
utilizes the dependency noise model and temporal momentum attention to ensure
content consistency and animation coherence, respectively. This ability enables
it to excel in related tasks, such as conditional and context-specialized video
generation and instruction-guided video editing. Experimental results
demonstrate that ZS^2 achieves state-of-the-art performance in
zero-shot video generation, occasionally outperforming recent supervised
methods.
Homepage: https://densechen.github.io/zss/.Summary
AI-Generated Summary