DreamVideo: Jouw Droomvideo's Samenstellen met Aangepaste Onderwerpen en Beweging

Samenvatting

Gepersonaliseerde generatie met behulp van diffusiemodellen heeft indrukwekkende vooruitgang geboekt in beeldgeneratie, maar blijft onbevredigend in de uitdagende taak van videogeneratie, omdat het controle vereist over zowel onderwerpen als bewegingen. Daartoe presenteren we DreamVideo, een nieuwe aanpak voor het genereren van gepersonaliseerde video's vanuit een paar statische afbeeldingen van het gewenste onderwerp en een paar video's van de doelbeweging. DreamVideo ontkoppelt deze taak in twee fasen, onderwerpleer en bewegingleer, door gebruik te maken van een vooraf getraind videodiffusiemodel. Het onderwerpleer is gericht op het nauwkeurig vastleggen van het gedetailleerde uiterlijk van het onderwerp vanuit de verstrekte afbeeldingen, wat wordt bereikt door tekstuele inversie te combineren met het finetunen van onze zorgvuldig ontworpen identiteitsadapter. In bewegingleer ontwerpen we een bewegingadapter en finetunen deze op de gegeven video's om het doelbewegingspatroon effectief te modelleren. Door deze twee lichtgewicht en efficiënte adapters te combineren, is het mogelijk om flexibel elk onderwerp met elke beweging aan te passen. Uitgebreide experimentele resultaten tonen de superieure prestaties van onze DreamVideo aan in vergelijking met de state-of-the-art methoden voor gepersonaliseerde videogeneratie. Onze projectpagina is te vinden op https://dreamvideo-t2v.github.io.

English

Customized generation using diffusion models has made impressive progress in image generation, but remains unsatisfactory in the challenging video generation task, as it requires the controllability of both subjects and motions. To that end, we present DreamVideo, a novel approach to generating personalized videos from a few static images of the desired subject and a few videos of target motion. DreamVideo decouples this task into two stages, subject learning and motion learning, by leveraging a pre-trained video diffusion model. The subject learning aims to accurately capture the fine appearance of the subject from provided images, which is achieved by combining textual inversion and fine-tuning of our carefully designed identity adapter. In motion learning, we architect a motion adapter and fine-tune it on the given videos to effectively model the target motion pattern. Combining these two lightweight and efficient adapters allows for flexible customization of any subject with any motion. Extensive experimental results demonstrate the superior performance of our DreamVideo over the state-of-the-art methods for customized video generation. Our project page is at https://dreamvideo-t2v.github.io.

DreamVideo: Jouw Droomvideo's Samenstellen met Aangepaste Onderwerpen en Beweging

DreamVideo: Composing Your Dream Videos with Customized Subject and Motion

Samenvatting

Support