Campionamento Video Zero-shot a Grana Fine
Fine-gained Zero-shot Video Sampling
July 31, 2024
Autori: Dengsheng Chen, Jie Hu, Xiaoming Wei, Enhua Wu
cs.AI
Abstract
Incorporare una dimensione temporale nei modelli di diffusione di immagini pre-addestrati per la generazione di video è un approccio prevalente. Tuttavia, questo metodo è computazionalmente impegnativo e richiede dataset video su larga scala. Ancora più critico, l'eterogeneità tra i dataset di immagini e video spesso risulta in un oblio catastrofico delle competenze acquisite sulle immagini. Recenti tentativi di estrarre direttamente frammenti video dai modelli di diffusione di immagini hanno in parte mitigato questi problemi. Tuttavia, questi metodi possono generare solo brevi clip video con movimenti semplici e non riescono a catturare movimenti finemente dettagliati o deformazioni non grigliate. In questo articolo, proponiamo un nuovo algoritmo di campionamento video Zero-Shot, denominato ZS^2, in grado di campionare direttamente clip video di alta qualità da metodi esistenti di sintesi di immagini, come Stable Diffusion, senza alcun addestramento o ottimizzazione. Nello specifico, ZS^2 utilizza il modello di rumore dipendente e l'attenzione al momento temporale per garantire rispettivamente la coerenza del contenuto e dell'animazione. Questa capacità gli consente di eccellere in compiti correlati, come la generazione di video condizionati e specializzati nel contesto e l'editing video guidato da istruzioni. I risultati sperimentali dimostrano che ZS^2 raggiunge prestazioni all'avanguardia nella generazione di video zero-shot, superando occasionalmente i recenti metodi supervisionati.
Homepage: https://densechen.github.io/zss/.
English
Incorporating a temporal dimension into pretrained image diffusion models for
video generation is a prevalent approach. However, this method is
computationally demanding and necessitates large-scale video datasets. More
critically, the heterogeneity between image and video datasets often results in
catastrophic forgetting of the image expertise. Recent attempts to directly
extract video snippets from image diffusion models have somewhat mitigated
these problems. Nevertheless, these methods can only generate brief video clips
with simple movements and fail to capture fine-grained motion or non-grid
deformation. In this paper, we propose a novel Zero-Shot video Sampling
algorithm, denoted as ZS^2, capable of directly sampling
high-quality video clips from existing image synthesis methods, such as Stable
Diffusion, without any training or optimization. Specifically, ZS^2
utilizes the dependency noise model and temporal momentum attention to ensure
content consistency and animation coherence, respectively. This ability enables
it to excel in related tasks, such as conditional and context-specialized video
generation and instruction-guided video editing. Experimental results
demonstrate that ZS^2 achieves state-of-the-art performance in
zero-shot video generation, occasionally outperforming recent supervised
methods.
Homepage: https://densechen.github.io/zss/.