MotionBooth: Generación de Vídeo Personalizado con Conciencia del Movimiento Basada en Texto
MotionBooth: Motion-Aware Customized Text-to-Video Generation
June 25, 2024
Autores: Jianzong Wu, Xiangtai Li, Yanhong Zeng, Jiangning Zhang, Qianyu Zhou, Yining Li, Yunhai Tong, Kai Chen
cs.AI
Resumen
En este trabajo, presentamos MotionBooth, un marco innovador diseñado para animar sujetos personalizados con un control preciso sobre los movimientos tanto del objeto como de la cámara. Al aprovechar unas pocas imágenes de un objeto específico, ajustamos eficientemente un modelo de texto a video para capturar con precisión la forma y los atributos del objeto. Nuestro enfoque introduce una pérdida de región del sujeto y una pérdida de preservación de video para mejorar el rendimiento de aprendizaje del sujeto, junto con una pérdida de atención cruzada de tokens del sujeto para integrar el sujeto personalizado con señales de control de movimiento. Además, proponemos técnicas libres de entrenamiento para gestionar los movimientos del sujeto y de la cámara durante la inferencia. En particular, utilizamos la manipulación de mapas de atención cruzada para gobernar el movimiento del sujeto e introducimos un novedoso módulo de desplazamiento latente para el control del movimiento de la cámara. MotionBooth destaca por preservar la apariencia de los sujetos mientras controla simultáneamente los movimientos en los videos generados. Evaluaciones cuantitativas y cualitativas exhaustivas demuestran la superioridad y efectividad de nuestro método. Nuestra página del proyecto se encuentra en https://jianzongwu.github.io/projects/motionbooth.
English
In this work, we present MotionBooth, an innovative framework designed for
animating customized subjects with precise control over both object and camera
movements. By leveraging a few images of a specific object, we efficiently
fine-tune a text-to-video model to capture the object's shape and attributes
accurately. Our approach presents subject region loss and video preservation
loss to enhance the subject's learning performance, along with a subject token
cross-attention loss to integrate the customized subject with motion control
signals. Additionally, we propose training-free techniques for managing subject
and camera motions during inference. In particular, we utilize cross-attention
map manipulation to govern subject motion and introduce a novel latent shift
module for camera movement control as well. MotionBooth excels in preserving
the appearance of subjects while simultaneously controlling the motions in
generated videos. Extensive quantitative and qualitative evaluations
demonstrate the superiority and effectiveness of our method. Our project page
is at https://jianzongwu.github.io/projects/motionboothSummary
AI-Generated Summary