ChatPaper.aiChatPaper

MotionClone: обучение-бесплатное клонирование движения для управляемой генерации видео

MotionClone: Training-Free Motion Cloning for Controllable Video Generation

June 8, 2024
Авторы: Pengyang Ling, Jiazi Bu, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Tong Wu, Huaian Chen, Jiaqi Wang, Yi Jin
cs.AI

Аннотация

Генерация видео по тексту, управляемая на основе движения, включает использование движений для управления генерацией видео. Предыдущие методы обычно требуют обучения моделей для кодирования признаков движения или тонкой настройки моделей диффузии видео. Однако эти подходы часто приводят к недостаточной генерации движения при применении за пределами обученной области. В данной работе мы предлагаем MotionClone - фреймворк без обучения, который позволяет клонировать движение из видео-ссылки для управления генерацией видео по тексту. Мы используем временное внимание в инверсии видео для представления движений в видео-ссылке и вводим первичное временное внимание для смягчения влияния шумных или очень тонких движений весов внимания. Кроме того, чтобы помочь модели генерации в синтезе разумных пространственных отношений и улучшить ее способность следовать за событиями, мы предлагаем механизм семантического направления с учетом местоположения, который использует грубое местоположение переднего плана из видео-ссылки и оригинальные признаки направления без классификатора для управления генерацией видео. Обширные эксперименты показывают, что MotionClone проявляет мастерство как в глобальном камерном движении, так и в локальном движении объектов, с заметным превосходством в плане достоверности движения, выравнивания текста и временной последовательности.
English
Motion-based controllable text-to-video generation involves motions to control the video generation. Previous methods typically require the training of models to encode motion cues or the fine-tuning of video diffusion models. However, these approaches often result in suboptimal motion generation when applied outside the trained domain. In this work, we propose MotionClone, a training-free framework that enables motion cloning from a reference video to control text-to-video generation. We employ temporal attention in video inversion to represent the motions in the reference video and introduce primary temporal-attention guidance to mitigate the influence of noisy or very subtle motions within the attention weights. Furthermore, to assist the generation model in synthesizing reasonable spatial relationships and enhance its prompt-following capability, we propose a location-aware semantic guidance mechanism that leverages the coarse location of the foreground from the reference video and original classifier-free guidance features to guide the video generation. Extensive experiments demonstrate that MotionClone exhibits proficiency in both global camera motion and local object motion, with notable superiority in terms of motion fidelity, textual alignment, and temporal consistency.

Summary

AI-Generated Summary

PDF424December 8, 2024