Échantillonnage vidéo zero-shot à granularité fine

papers.abstract

L'intégration d'une dimension temporelle dans les modèles de diffusion d'images pré-entraînés pour la génération de vidéos est une approche courante. Cependant, cette méthode est exigeante en termes de calcul et nécessite des ensembles de données vidéo à grande échelle. Plus crucial encore, l'hétérogénéité entre les ensembles de données d'images et de vidéos entraîne souvent un oubli catastrophique de l'expertise en images. Des tentatives récentes pour extraire directement des extraits vidéo à partir de modèles de diffusion d'images ont quelque peu atténué ces problèmes. Néanmoins, ces méthodes ne peuvent générer que de courts clips vidéo avec des mouvements simples et ne parviennent pas à capturer des mouvements fins ou des déformations non structurées. Dans cet article, nous proposons un nouvel algorithme d'échantillonnage vidéo Zero-Shot, dénommé ZS^2, capable de générer directement des clips vidéo de haute qualité à partir de méthodes de synthèse d'images existantes, telles que Stable Diffusion, sans aucun entraînement ou optimisation. Plus précisément, ZS^2 utilise le modèle de bruit de dépendance et l'attention à l'élan temporel pour assurer respectivement la cohérence du contenu et la fluidité de l'animation. Cette capacité lui permet d'exceller dans des tâches connexes, telles que la génération de vidéos conditionnelles et spécialisées dans un contexte, ainsi que l'édition de vidéos guidée par des instructions. Les résultats expérimentaux montrent que ZS^2 atteint des performances de pointe en génération de vidéos zero-shot, surpassant parfois les méthodes supervisées récentes. Page d'accueil : https://densechen.github.io/zss/.

English

Incorporating a temporal dimension into pretrained image diffusion models for video generation is a prevalent approach. However, this method is computationally demanding and necessitates large-scale video datasets. More critically, the heterogeneity between image and video datasets often results in catastrophic forgetting of the image expertise. Recent attempts to directly extract video snippets from image diffusion models have somewhat mitigated these problems. Nevertheless, these methods can only generate brief video clips with simple movements and fail to capture fine-grained motion or non-grid deformation. In this paper, we propose a novel Zero-Shot video Sampling algorithm, denoted as ZS^2, capable of directly sampling high-quality video clips from existing image synthesis methods, such as Stable Diffusion, without any training or optimization. Specifically, ZS^2 utilizes the dependency noise model and temporal momentum attention to ensure content consistency and animation coherence, respectively. This ability enables it to excel in related tasks, such as conditional and context-specialized video generation and instruction-guided video editing. Experimental results demonstrate that ZS^2 achieves state-of-the-art performance in zero-shot video generation, occasionally outperforming recent supervised methods. Homepage: https://densechen.github.io/zss/.

Échantillonnage vidéo zero-shot à granularité fine

Fine-gained Zero-shot Video Sampling

papers.abstract

Support