ChatPaper.aiChatPaper

DreamVideo : Composer vos vidéos de rêve avec un sujet et un mouvement personnalisés

DreamVideo: Composing Your Dream Videos with Customized Subject and Motion

December 7, 2023
Auteurs: Yujie Wei, Shiwei Zhang, Zhiwu Qing, Hangjie Yuan, Zhiheng Liu, Yu Liu, Yingya Zhang, Jingren Zhou, Hongming Shan
cs.AI

Résumé

La génération personnalisée utilisant des modèles de diffusion a réalisé des progrès impressionnants dans la génération d'images, mais reste insatisfaisante dans la tâche complexe de génération de vidéos, car elle nécessite un contrôle à la fois des sujets et des mouvements. Pour cela, nous présentons DreamVideo, une nouvelle approche pour générer des vidéos personnalisées à partir de quelques images statiques du sujet souhaité et de quelques vidéos du mouvement cible. DreamVideo décompose cette tâche en deux étapes, l'apprentissage du sujet et l'apprentissage du mouvement, en exploitant un modèle de diffusion vidéo pré-entraîné. L'apprentissage du sujet vise à capturer avec précision l'apparence fine du sujet à partir des images fournies, ce qui est réalisé en combinant l'inversion textuelle et le réglage fin de notre adaptateur d'identité soigneusement conçu. Dans l'apprentissage du mouvement, nous concevons un adaptateur de mouvement et l'affinons sur les vidéos données pour modéliser efficacement le modèle de mouvement cible. La combinaison de ces deux adaptateurs légers et efficaces permet une personnalisation flexible de tout sujet avec n'importe quel mouvement. Les résultats expérimentaux approfondis démontrent la performance supérieure de notre DreamVideo par rapport aux méthodes de pointe pour la génération de vidéos personnalisées. Notre page de projet est disponible à l'adresse https://dreamvideo-t2v.github.io.
English
Customized generation using diffusion models has made impressive progress in image generation, but remains unsatisfactory in the challenging video generation task, as it requires the controllability of both subjects and motions. To that end, we present DreamVideo, a novel approach to generating personalized videos from a few static images of the desired subject and a few videos of target motion. DreamVideo decouples this task into two stages, subject learning and motion learning, by leveraging a pre-trained video diffusion model. The subject learning aims to accurately capture the fine appearance of the subject from provided images, which is achieved by combining textual inversion and fine-tuning of our carefully designed identity adapter. In motion learning, we architect a motion adapter and fine-tune it on the given videos to effectively model the target motion pattern. Combining these two lightweight and efficient adapters allows for flexible customization of any subject with any motion. Extensive experimental results demonstrate the superior performance of our DreamVideo over the state-of-the-art methods for customized video generation. Our project page is at https://dreamvideo-t2v.github.io.
PDF102December 15, 2024