MotionClone: обучение-бесплатное клонирование движения для управляемой генерации видео
MotionClone: Training-Free Motion Cloning for Controllable Video Generation
June 8, 2024
Авторы: Pengyang Ling, Jiazi Bu, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Tong Wu, Huaian Chen, Jiaqi Wang, Yi Jin
cs.AI
Аннотация
Генерация видео по тексту, управляемая на основе движения, включает использование движений для управления генерацией видео. Предыдущие методы обычно требуют обучения моделей для кодирования признаков движения или тонкой настройки моделей диффузии видео. Однако эти подходы часто приводят к недостаточной генерации движения при применении за пределами обученной области. В данной работе мы предлагаем MotionClone - фреймворк без обучения, который позволяет клонировать движение из видео-ссылки для управления генерацией видео по тексту. Мы используем временное внимание в инверсии видео для представления движений в видео-ссылке и вводим первичное временное внимание для смягчения влияния шумных или очень тонких движений весов внимания. Кроме того, чтобы помочь модели генерации в синтезе разумных пространственных отношений и улучшить ее способность следовать за событиями, мы предлагаем механизм семантического направления с учетом местоположения, который использует грубое местоположение переднего плана из видео-ссылки и оригинальные признаки направления без классификатора для управления генерацией видео. Обширные эксперименты показывают, что MotionClone проявляет мастерство как в глобальном камерном движении, так и в локальном движении объектов, с заметным превосходством в плане достоверности движения, выравнивания текста и временной последовательности.
English
Motion-based controllable text-to-video generation involves motions to
control the video generation. Previous methods typically require the training
of models to encode motion cues or the fine-tuning of video diffusion models.
However, these approaches often result in suboptimal motion generation when
applied outside the trained domain. In this work, we propose MotionClone, a
training-free framework that enables motion cloning from a reference video to
control text-to-video generation. We employ temporal attention in video
inversion to represent the motions in the reference video and introduce primary
temporal-attention guidance to mitigate the influence of noisy or very subtle
motions within the attention weights. Furthermore, to assist the generation
model in synthesizing reasonable spatial relationships and enhance its
prompt-following capability, we propose a location-aware semantic guidance
mechanism that leverages the coarse location of the foreground from the
reference video and original classifier-free guidance features to guide the
video generation. Extensive experiments demonstrate that MotionClone exhibits
proficiency in both global camera motion and local object motion, with notable
superiority in terms of motion fidelity, textual alignment, and temporal
consistency.Summary
AI-Generated Summary