Campionamento Video Zero-shot a Grana Fine

Abstract

Incorporare una dimensione temporale nei modelli di diffusione di immagini pre-addestrati per la generazione di video è un approccio prevalente. Tuttavia, questo metodo è computazionalmente impegnativo e richiede dataset video su larga scala. Ancora più critico, l'eterogeneità tra i dataset di immagini e video spesso risulta in un oblio catastrofico delle competenze acquisite sulle immagini. Recenti tentativi di estrarre direttamente frammenti video dai modelli di diffusione di immagini hanno in parte mitigato questi problemi. Tuttavia, questi metodi possono generare solo brevi clip video con movimenti semplici e non riescono a catturare movimenti finemente dettagliati o deformazioni non grigliate. In questo articolo, proponiamo un nuovo algoritmo di campionamento video Zero-Shot, denominato ZS^2, in grado di campionare direttamente clip video di alta qualità da metodi esistenti di sintesi di immagini, come Stable Diffusion, senza alcun addestramento o ottimizzazione. Nello specifico, ZS^2 utilizza il modello di rumore dipendente e l'attenzione al momento temporale per garantire rispettivamente la coerenza del contenuto e dell'animazione. Questa capacità gli consente di eccellere in compiti correlati, come la generazione di video condizionati e specializzati nel contesto e l'editing video guidato da istruzioni. I risultati sperimentali dimostrano che ZS^2 raggiunge prestazioni all'avanguardia nella generazione di video zero-shot, superando occasionalmente i recenti metodi supervisionati. Homepage: https://densechen.github.io/zss/.

English

Incorporating a temporal dimension into pretrained image diffusion models for video generation is a prevalent approach. However, this method is computationally demanding and necessitates large-scale video datasets. More critically, the heterogeneity between image and video datasets often results in catastrophic forgetting of the image expertise. Recent attempts to directly extract video snippets from image diffusion models have somewhat mitigated these problems. Nevertheless, these methods can only generate brief video clips with simple movements and fail to capture fine-grained motion or non-grid deformation. In this paper, we propose a novel Zero-Shot video Sampling algorithm, denoted as ZS^2, capable of directly sampling high-quality video clips from existing image synthesis methods, such as Stable Diffusion, without any training or optimization. Specifically, ZS^2 utilizes the dependency noise model and temporal momentum attention to ensure content consistency and animation coherence, respectively. This ability enables it to excel in related tasks, such as conditional and context-specialized video generation and instruction-guided video editing. Experimental results demonstrate that ZS^2 achieves state-of-the-art performance in zero-shot video generation, occasionally outperforming recent supervised methods. Homepage: https://densechen.github.io/zss/.

Campionamento Video Zero-shot a Grana Fine

Fine-gained Zero-shot Video Sampling

Abstract

Support