DreamVideo: Komponieren Sie Ihre Traumvideos mit individuellem Motiv und Bewegung
DreamVideo: Composing Your Dream Videos with Customized Subject and Motion
December 7, 2023
Autoren: Yujie Wei, Shiwei Zhang, Zhiwu Qing, Hangjie Yuan, Zhiheng Liu, Yu Liu, Yingya Zhang, Jingren Zhou, Hongming Shan
cs.AI
Zusammenfassung
Die personalisierte Generierung mithilfe von Diffusionsmodellen hat beeindruckende Fortschritte in der Bildgenerierung erzielt, bleibt jedoch bei der anspruchsvollen Aufgabe der Videogenerierung unbefriedigend, da sie die Kontrollierbarkeit sowohl von Subjekten als auch von Bewegungen erfordert. Zu diesem Zweck präsentieren wir DreamVideo, einen neuartigen Ansatz zur Erstellung personalisierter Videos aus einigen statischen Bildern des gewünschten Subjekts und einigen Videos der Zielbewegung. DreamVideo entkoppelt diese Aufgabe in zwei Phasen, Subjektlernen und Bewegungslernen, indem ein vortrainiertes Video-Diffusionsmodell genutzt wird. Das Subjektlernen zielt darauf ab, das feine Erscheinungsbild des Subjekts aus den bereitgestellten Bildern präzise zu erfassen, was durch die Kombination von Textinversion und Feinabstimmung unseres sorgfältig gestalteten Identitätsadapters erreicht wird. Beim Bewegungslernen entwickeln wir einen Bewegungsadapter und stimmen ihn auf den gegebenen Videos ab, um das Zielbewegungsmuster effektiv zu modellieren. Die Kombination dieser beiden leichtgewichtigen und effizienten Adapter ermöglicht eine flexible Anpassung jedes Subjekts mit jeder Bewegung. Umfangreiche experimentelle Ergebnisse demonstrieren die überlegene Leistung unseres DreamVideo im Vergleich zu den state-of-the-art Methoden für die personalisierte Videogenerierung. Unsere Projektseite finden Sie unter https://dreamvideo-t2v.github.io.
English
Customized generation using diffusion models has made impressive progress in
image generation, but remains unsatisfactory in the challenging video
generation task, as it requires the controllability of both subjects and
motions. To that end, we present DreamVideo, a novel approach to generating
personalized videos from a few static images of the desired subject and a few
videos of target motion. DreamVideo decouples this task into two stages,
subject learning and motion learning, by leveraging a pre-trained video
diffusion model. The subject learning aims to accurately capture the fine
appearance of the subject from provided images, which is achieved by combining
textual inversion and fine-tuning of our carefully designed identity adapter.
In motion learning, we architect a motion adapter and fine-tune it on the given
videos to effectively model the target motion pattern. Combining these two
lightweight and efficient adapters allows for flexible customization of any
subject with any motion. Extensive experimental results demonstrate the
superior performance of our DreamVideo over the state-of-the-art methods for
customized video generation. Our project page is at
https://dreamvideo-t2v.github.io.