DreamVideo: Jouw Droomvideo's Samenstellen met Aangepaste Onderwerpen en Beweging
DreamVideo: Composing Your Dream Videos with Customized Subject and Motion
December 7, 2023
Auteurs: Yujie Wei, Shiwei Zhang, Zhiwu Qing, Hangjie Yuan, Zhiheng Liu, Yu Liu, Yingya Zhang, Jingren Zhou, Hongming Shan
cs.AI
Samenvatting
Gepersonaliseerde generatie met behulp van diffusiemodellen heeft indrukwekkende vooruitgang geboekt in beeldgeneratie, maar blijft onbevredigend in de uitdagende taak van videogeneratie, omdat het controle vereist over zowel onderwerpen als bewegingen. Daartoe presenteren we DreamVideo, een nieuwe aanpak voor het genereren van gepersonaliseerde video's vanuit een paar statische afbeeldingen van het gewenste onderwerp en een paar video's van de doelbeweging. DreamVideo ontkoppelt deze taak in twee fasen, onderwerpleer en bewegingleer, door gebruik te maken van een vooraf getraind videodiffusiemodel. Het onderwerpleer is gericht op het nauwkeurig vastleggen van het gedetailleerde uiterlijk van het onderwerp vanuit de verstrekte afbeeldingen, wat wordt bereikt door tekstuele inversie te combineren met het finetunen van onze zorgvuldig ontworpen identiteitsadapter. In bewegingleer ontwerpen we een bewegingadapter en finetunen deze op de gegeven video's om het doelbewegingspatroon effectief te modelleren. Door deze twee lichtgewicht en efficiënte adapters te combineren, is het mogelijk om flexibel elk onderwerp met elke beweging aan te passen. Uitgebreide experimentele resultaten tonen de superieure prestaties van onze DreamVideo aan in vergelijking met de state-of-the-art methoden voor gepersonaliseerde videogeneratie. Onze projectpagina is te vinden op https://dreamvideo-t2v.github.io.
English
Customized generation using diffusion models has made impressive progress in
image generation, but remains unsatisfactory in the challenging video
generation task, as it requires the controllability of both subjects and
motions. To that end, we present DreamVideo, a novel approach to generating
personalized videos from a few static images of the desired subject and a few
videos of target motion. DreamVideo decouples this task into two stages,
subject learning and motion learning, by leveraging a pre-trained video
diffusion model. The subject learning aims to accurately capture the fine
appearance of the subject from provided images, which is achieved by combining
textual inversion and fine-tuning of our carefully designed identity adapter.
In motion learning, we architect a motion adapter and fine-tune it on the given
videos to effectively model the target motion pattern. Combining these two
lightweight and efficient adapters allows for flexible customization of any
subject with any motion. Extensive experimental results demonstrate the
superior performance of our DreamVideo over the state-of-the-art methods for
customized video generation. Our project page is at
https://dreamvideo-t2v.github.io.