ChatPaper.aiChatPaper

MotionBooth: Geração Personalizada de Vídeo a Partir de Texto Consciente de Movimento

MotionBooth: Motion-Aware Customized Text-to-Video Generation

June 25, 2024
Autores: Jianzong Wu, Xiangtai Li, Yanhong Zeng, Jiangning Zhang, Qianyu Zhou, Yining Li, Yunhai Tong, Kai Chen
cs.AI

Resumo

Neste trabalho, apresentamos o MotionBooth, um framework inovador projetado para animar objetos personalizados com controle preciso sobre os movimentos do objeto e da câmera. Ao aproveitar algumas imagens de um objeto específico, ajustamos eficientemente um modelo de texto para vídeo para capturar com precisão a forma e atributos do objeto. Nossa abordagem apresenta perda de região do objeto e preservação de vídeo para aprimorar o desempenho de aprendizado do objeto, juntamente com uma perda de atenção cruzada de token do objeto para integrar o objeto personalizado com sinais de controle de movimento. Além disso, propomos técnicas sem treinamento para gerenciar os movimentos do objeto e da câmera durante a inferência. Em particular, utilizamos manipulação de mapa de atenção cruzada para governar o movimento do objeto e introduzimos um módulo de deslocamento latente para controle de movimento da câmera também. O MotionBooth se destaca em preservar a aparência dos objetos enquanto controla simultaneamente os movimentos em vídeos gerados. Avaliações quantitativas e qualitativas extensivas demonstram a superioridade e eficácia de nosso método. Nossa página do projeto está em https://jianzongwu.github.io/projects/motionbooth
English
In this work, we present MotionBooth, an innovative framework designed for animating customized subjects with precise control over both object and camera movements. By leveraging a few images of a specific object, we efficiently fine-tune a text-to-video model to capture the object's shape and attributes accurately. Our approach presents subject region loss and video preservation loss to enhance the subject's learning performance, along with a subject token cross-attention loss to integrate the customized subject with motion control signals. Additionally, we propose training-free techniques for managing subject and camera motions during inference. In particular, we utilize cross-attention map manipulation to govern subject motion and introduce a novel latent shift module for camera movement control as well. MotionBooth excels in preserving the appearance of subjects while simultaneously controlling the motions in generated videos. Extensive quantitative and qualitative evaluations demonstrate the superiority and effectiveness of our method. Our project page is at https://jianzongwu.github.io/projects/motionbooth
PDF191November 29, 2024