MotionBooth: Генерация видео из текста с учетом движения
MotionBooth: Motion-Aware Customized Text-to-Video Generation
June 25, 2024
Авторы: Jianzong Wu, Xiangtai Li, Yanhong Zeng, Jiangning Zhang, Qianyu Zhou, Yining Li, Yunhai Tong, Kai Chen
cs.AI
Аннотация
В данной работе мы представляем MotionBooth, инновационную платформу, разработанную для создания анимации настраиваемых объектов с точным контролем как над движениями объекта, так и камеры. Путем использования нескольких изображений определенного объекта мы эффективно настраиваем модель текста-видео для точного воспроизведения формы и характеристик объекта. Наш подход представляет потери области объекта и сохранение видео для улучшения производительности обучения объекта, а также потерю перекрестного внимания токенов объекта для интеграции настраиваемого объекта с сигналами управления движением. Кроме того, мы предлагаем техники управления движениями объекта и камеры во время вывода без обучения. В частности, мы используем манипуляцию картой перекрестного внимания для управления движением объекта и представляем новый модуль сдвига латентности для управления движением камеры. MotionBooth отличается сохранением внешнего вида объектов и одновременным контролем движений в созданных видео. Обширные количественные и качественные оценки демонстрируют превосходство и эффективность нашего метода. Нашу страницу проекта можно найти по адресу https://jianzongwu.github.io/projects/motionbooth
English
In this work, we present MotionBooth, an innovative framework designed for
animating customized subjects with precise control over both object and camera
movements. By leveraging a few images of a specific object, we efficiently
fine-tune a text-to-video model to capture the object's shape and attributes
accurately. Our approach presents subject region loss and video preservation
loss to enhance the subject's learning performance, along with a subject token
cross-attention loss to integrate the customized subject with motion control
signals. Additionally, we propose training-free techniques for managing subject
and camera motions during inference. In particular, we utilize cross-attention
map manipulation to govern subject motion and introduce a novel latent shift
module for camera movement control as well. MotionBooth excels in preserving
the appearance of subjects while simultaneously controlling the motions in
generated videos. Extensive quantitative and qualitative evaluations
demonstrate the superiority and effectiveness of our method. Our project page
is at https://jianzongwu.github.io/projects/motionboothSummary
AI-Generated Summary