ChatPaper.aiChatPaper

DreamVideo: Componiendo tus videos soñados con sujeto y movimiento personalizados

DreamVideo: Composing Your Dream Videos with Customized Subject and Motion

December 7, 2023
Autores: Yujie Wei, Shiwei Zhang, Zhiwu Qing, Hangjie Yuan, Zhiheng Liu, Yu Liu, Yingya Zhang, Jingren Zhou, Hongming Shan
cs.AI

Resumen

La generación personalizada utilizando modelos de difusión ha logrado avances impresionantes en la generación de imágenes, pero sigue siendo insatisfactoria en la desafiante tarea de generación de videos, ya que requiere controlabilidad tanto de los sujetos como de los movimientos. Con este fin, presentamos DreamVideo, un enfoque novedoso para generar videos personalizados a partir de unas pocas imágenes estáticas del sujeto deseado y algunos videos del movimiento objetivo. DreamVideo desacopla esta tarea en dos etapas: aprendizaje del sujeto y aprendizaje del movimiento, aprovechando un modelo de difusión de video preentrenado. El aprendizaje del sujeto tiene como objetivo capturar con precisión la apariencia detallada del sujeto a partir de las imágenes proporcionadas, lo cual se logra combinando la inversión textual y el ajuste fino de nuestro adaptador de identidad cuidadosamente diseñado. En el aprendizaje del movimiento, diseñamos un adaptador de movimiento y lo ajustamos en los videos dados para modelar efectivamente el patrón de movimiento objetivo. La combinación de estos dos adaptadores ligeros y eficientes permite la personalización flexible de cualquier sujeto con cualquier movimiento. Los resultados experimentales extensivos demuestran el rendimiento superior de nuestro DreamVideo sobre los métodos más avanzados para la generación de videos personalizados. Nuestra página del proyecto se encuentra en https://dreamvideo-t2v.github.io.
English
Customized generation using diffusion models has made impressive progress in image generation, but remains unsatisfactory in the challenging video generation task, as it requires the controllability of both subjects and motions. To that end, we present DreamVideo, a novel approach to generating personalized videos from a few static images of the desired subject and a few videos of target motion. DreamVideo decouples this task into two stages, subject learning and motion learning, by leveraging a pre-trained video diffusion model. The subject learning aims to accurately capture the fine appearance of the subject from provided images, which is achieved by combining textual inversion and fine-tuning of our carefully designed identity adapter. In motion learning, we architect a motion adapter and fine-tune it on the given videos to effectively model the target motion pattern. Combining these two lightweight and efficient adapters allows for flexible customization of any subject with any motion. Extensive experimental results demonstrate the superior performance of our DreamVideo over the state-of-the-art methods for customized video generation. Our project page is at https://dreamvideo-t2v.github.io.
PDF102December 15, 2024