ReVideo: Пересоздание видео с управлением движением и контентом
ReVideo: Remake a Video with Motion and Content Control
May 22, 2024
Авторы: Chong Mou, Mingdeng Cao, Xintao Wang, Zhaoyang Zhang, Ying Shan, Jian Zhang
cs.AI
Аннотация
Несмотря на значительные достижения в генерации и редактировании видео с использованием моделей диффузии, достижение точного и локализованного видеоредактирования остается значительным вызовом. Кроме того, большинство существующих методов видеоредактирования в основном сосредоточены на изменении визуального контента, с ограниченным исследованием, посвященным редактированию движения. В данной статье мы представляем новую попытку пересоздания видео (ReVideo), которая выделяется из существующих методов, позволяя точное редактирование видео в конкретных областях путем указания как контента, так и движения. Редактирование контента облегчается путем модификации первого кадра, в то время как управление движением на основе траектории предлагает интуитивный опыт взаимодействия с пользователем. ReVideo решает новую задачу, связанную с сопряжением и дисбалансом обучения между контентом и управлением движением. Для решения этой проблемы мы разрабатываем трехэтапную стратегию обучения, которая постепенно разъединяет эти два аспекта от грубого к тонкому. Кроме того, мы предлагаем модуль адаптивного объединения пространственно-временных данных для интеграции контента и управления движением на различных этапах выборки и пространственных местоположениях. Обширные эксперименты показывают, что наш ReVideo демонстрирует многообещающую производительность в нескольких точных приложениях видеоредактирования, таких как (1) локальное изменение видеоконтента при сохранении постоянного движения, (2) сохранение неизменного контента и настройка новых траекторий движения, (3) модификация как контента, так и траекторий движения. Наш метод также легко расширяет эти приложения до редактирования нескольких областей без специального обучения, демонстрируя его гибкость и надежность.
English
Despite significant advancements in video generation and editing using
diffusion models, achieving accurate and localized video editing remains a
substantial challenge. Additionally, most existing video editing methods
primarily focus on altering visual content, with limited research dedicated to
motion editing. In this paper, we present a novel attempt to Remake a Video
(ReVideo) which stands out from existing methods by allowing precise video
editing in specific areas through the specification of both content and motion.
Content editing is facilitated by modifying the first frame, while the
trajectory-based motion control offers an intuitive user interaction
experience. ReVideo addresses a new task involving the coupling and training
imbalance between content and motion control. To tackle this, we develop a
three-stage training strategy that progressively decouples these two aspects
from coarse to fine. Furthermore, we propose a spatiotemporal adaptive fusion
module to integrate content and motion control across various sampling steps
and spatial locations. Extensive experiments demonstrate that our ReVideo has
promising performance on several accurate video editing applications, i.e., (1)
locally changing video content while keeping the motion constant, (2) keeping
content unchanged and customizing new motion trajectories, (3) modifying both
content and motion trajectories. Our method can also seamlessly extend these
applications to multi-area editing without specific training, demonstrating its
flexibility and robustness.Summary
AI-Generated Summary