CustomVideo: Personalización de la Generación de Texto a Video con Múltiples Sujetos
CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects
January 18, 2024
Autores: Zhao Wang, Aoxue Li, Enze Xie, Lingting Zhu, Yong Guo, Qi Dou, Zhenguo Li
cs.AI
Resumen
La generación personalizada de texto a video tiene como objetivo crear videos de alta calidad guiados por indicaciones de texto y referencias de sujetos. Los enfoques actuales diseñados para un solo sujeto tienen dificultades para manejar múltiples sujetos, lo cual representa un escenario más desafiante y práctico. En este trabajo, buscamos promover la personalización de texto a video guiada por múltiples sujetos. Proponemos CustomVideo, un marco novedoso que puede generar videos que preservan la identidad con la guía de múltiples sujetos. Específicamente, en primer lugar, fomentamos la coexistencia de múltiples sujetos mediante su composición en una sola imagen. Además, sobre un modelo básico de difusión de texto a video, diseñamos una estrategia de control de atención simple pero efectiva para separar diferentes sujetos en el espacio latente del modelo de difusión. Asimismo, para ayudar al modelo a enfocarse en el área específica del objeto, segmentamos el objeto a partir de imágenes de referencia proporcionadas y ofrecemos una máscara de objeto correspondiente para el aprendizaje de atención. También recopilamos un conjunto de datos de generación de texto a video con múltiples sujetos como un punto de referencia integral, con 69 sujetos individuales y 57 pares significativos. Los resultados extensos de estudios cualitativos, cuantitativos y con usuarios demuestran la superioridad de nuestro método en comparación con los enfoques más avanzados anteriores.
English
Customized text-to-video generation aims to generate high-quality videos
guided by text prompts and subject references. Current approaches designed for
single subjects suffer from tackling multiple subjects, which is a more
challenging and practical scenario. In this work, we aim to promote
multi-subject guided text-to-video customization. We propose CustomVideo, a
novel framework that can generate identity-preserving videos with the guidance
of multiple subjects. To be specific, firstly, we encourage the co-occurrence
of multiple subjects via composing them in a single image. Further, upon a
basic text-to-video diffusion model, we design a simple yet effective attention
control strategy to disentangle different subjects in the latent space of
diffusion model. Moreover, to help the model focus on the specific object area,
we segment the object from given reference images and provide a corresponding
object mask for attention learning. Also, we collect a multi-subject
text-to-video generation dataset as a comprehensive benchmark, with 69
individual subjects and 57 meaningful pairs. Extensive qualitative,
quantitative, and user study results demonstrate the superiority of our method,
compared with the previous state-of-the-art approaches.