Fijnmazige Zero-shot Video Sampling
Fine-gained Zero-shot Video Sampling
July 31, 2024
Auteurs: Dengsheng Chen, Jie Hu, Xiaoming Wei, Enhua Wu
cs.AI
Samenvatting
Het integreren van een temporele dimensie in vooraf getrainde beelddiffusiemodellen voor videogeneratie is een veelgebruikte aanpak. Deze methode is echter rekenintensief en vereist grootschalige videodatasets. Nog kritischer is dat de heterogeniteit tussen beeld- en videodatasets vaak leidt tot catastrofaal verlies van de beeldkennis. Recente pogingen om direct videofragmenten uit beelddiffusiemodellen te extraheren hebben deze problemen enigszins verlicht. Desalniettemin kunnen deze methoden slechts korte videoclips genereren met eenvoudige bewegingen en slagen ze er niet in om fijnmazige beweging of niet-gridvormige vervorming vast te leggen. In dit artikel introduceren we een nieuwe Zero-Shot video Sampling-algoritme, aangeduid als ZS^2, dat in staat is om direct hoogwaardige videoclips te genereren uit bestaande beeld synthesemethoden, zoals Stable Diffusion, zonder enige training of optimalisatie. Specifiek maakt ZS^2 gebruik van het afhankelijkheidsruismodel en temporele momentum aandacht om respectievelijk inhoudelijke consistentie en animatiecoherentie te waarborgen. Deze mogelijkheid stelt het in staat om uit te blinken in gerelateerde taken, zoals conditionele en context-specifieke videogeneratie en instructiegestuurde videobewerking. Experimentele resultaten tonen aan dat ZS^2 state-of-the-art prestaties bereikt in zero-shot videogeneratie, waarbij het af en toe recente gesuperviseerde methoden overtreft.
Homepage: https://densechen.github.io/zss/.
English
Incorporating a temporal dimension into pretrained image diffusion models for
video generation is a prevalent approach. However, this method is
computationally demanding and necessitates large-scale video datasets. More
critically, the heterogeneity between image and video datasets often results in
catastrophic forgetting of the image expertise. Recent attempts to directly
extract video snippets from image diffusion models have somewhat mitigated
these problems. Nevertheless, these methods can only generate brief video clips
with simple movements and fail to capture fine-grained motion or non-grid
deformation. In this paper, we propose a novel Zero-Shot video Sampling
algorithm, denoted as ZS^2, capable of directly sampling
high-quality video clips from existing image synthesis methods, such as Stable
Diffusion, without any training or optimization. Specifically, ZS^2
utilizes the dependency noise model and temporal momentum attention to ensure
content consistency and animation coherence, respectively. This ability enables
it to excel in related tasks, such as conditional and context-specialized video
generation and instruction-guided video editing. Experimental results
demonstrate that ZS^2 achieves state-of-the-art performance in
zero-shot video generation, occasionally outperforming recent supervised
methods.
Homepage: https://densechen.github.io/zss/.