DreamVideo: Comporre i Tuoi Video dei Sogni con Soggetto e Movimento Personalizzati

Abstract

La generazione personalizzata utilizzando modelli di diffusione ha compiuto progressi impressionanti nella generazione di immagini, ma rimane insoddisfacente nel complesso compito della generazione di video, poiché richiede la controllabilità sia dei soggetti che dei movimenti. A tal fine, presentiamo DreamVideo, un approccio innovativo per generare video personalizzati a partire da alcune immagini statiche del soggetto desiderato e da alcuni video del movimento target. DreamVideo scompone questo compito in due fasi, apprendimento del soggetto e apprendimento del movimento, sfruttando un modello di diffusione video pre-addestrato. L'apprendimento del soggetto mira a catturare accuratamente l'aspetto dettagliato del soggetto dalle immagini fornite, ottenuto combinando l'inversione testuale e il fine-tuning del nostro adattatore di identità progettato con cura. Nell'apprendimento del movimento, progettiamo un adattatore di movimento e lo ottimizziamo sui video forniti per modellare efficacemente il pattern di movimento target. La combinazione di questi due adattatori leggeri ed efficienti consente una personalizzazione flessibile di qualsiasi soggetto con qualsiasi movimento. I risultati sperimentali estesi dimostrano la performance superiore del nostro DreamVideo rispetto ai metodi all'avanguardia per la generazione di video personalizzati. La nostra pagina del progetto è disponibile all'indirizzo https://dreamvideo-t2v.github.io.

English

Customized generation using diffusion models has made impressive progress in image generation, but remains unsatisfactory in the challenging video generation task, as it requires the controllability of both subjects and motions. To that end, we present DreamVideo, a novel approach to generating personalized videos from a few static images of the desired subject and a few videos of target motion. DreamVideo decouples this task into two stages, subject learning and motion learning, by leveraging a pre-trained video diffusion model. The subject learning aims to accurately capture the fine appearance of the subject from provided images, which is achieved by combining textual inversion and fine-tuning of our carefully designed identity adapter. In motion learning, we architect a motion adapter and fine-tune it on the given videos to effectively model the target motion pattern. Combining these two lightweight and efficient adapters allows for flexible customization of any subject with any motion. Extensive experimental results demonstrate the superior performance of our DreamVideo over the state-of-the-art methods for customized video generation. Our project page is at https://dreamvideo-t2v.github.io.

DreamVideo: Comporre i Tuoi Video dei Sogni con Soggetto e Movimento Personalizzati

DreamVideo: Composing Your Dream Videos with Customized Subject and Motion

Abstract

Support