ReVideo : Recréer une vidéo avec contrôle du mouvement et du contenu
ReVideo: Remake a Video with Motion and Content Control
May 22, 2024
Auteurs: Chong Mou, Mingdeng Cao, Xintao Wang, Zhaoyang Zhang, Ying Shan, Jian Zhang
cs.AI
Résumé
Malgré les avancées significatives dans la génération et l'édition de vidéos utilisant des modèles de diffusion, la réalisation d'une édition vidéo précise et localisée reste un défi majeur. De plus, la plupart des méthodes existantes d'édition vidéo se concentrent principalement sur la modification du contenu visuel, avec peu de recherches dédiées à l'édition du mouvement. Dans cet article, nous présentons une nouvelle approche pour Réaliser une Vidéo (ReVideo) qui se distingue des méthodes existantes en permettant une édition vidéo précise dans des zones spécifiques grâce à la spécification à la fois du contenu et du mouvement. L'édition du contenu est facilitée par la modification de la première image, tandis que le contrôle du mouvement basé sur des trajectoires offre une expérience d'interaction utilisateur intuitive. ReVideo aborde une nouvelle tâche impliquant le couplage et le déséquilibre d'apprentissage entre le contrôle du contenu et du mouvement. Pour résoudre ce problème, nous développons une stratégie d'apprentissage en trois étapes qui découple progressivement ces deux aspects, du grossier au fin. De plus, nous proposons un module de fusion spatiotemporelle adaptative pour intégrer le contrôle du contenu et du mouvement à travers diverses étapes d'échantillonnage et localisations spatiales. Des expériences approfondies démontrent que notre ReVideo offre des performances prometteuses dans plusieurs applications d'édition vidéo précise, à savoir (1) modifier localement le contenu vidéo tout en gardant le mouvement constant, (2) garder le contenu inchangé et personnaliser de nouvelles trajectoires de mouvement, (3) modifier à la fois le contenu et les trajectoires de mouvement. Notre méthode peut également étendre de manière transparente ces applications à l'édition multi-zones sans entraînement spécifique, démontrant ainsi sa flexibilité et sa robustesse.
English
Despite significant advancements in video generation and editing using
diffusion models, achieving accurate and localized video editing remains a
substantial challenge. Additionally, most existing video editing methods
primarily focus on altering visual content, with limited research dedicated to
motion editing. In this paper, we present a novel attempt to Remake a Video
(ReVideo) which stands out from existing methods by allowing precise video
editing in specific areas through the specification of both content and motion.
Content editing is facilitated by modifying the first frame, while the
trajectory-based motion control offers an intuitive user interaction
experience. ReVideo addresses a new task involving the coupling and training
imbalance between content and motion control. To tackle this, we develop a
three-stage training strategy that progressively decouples these two aspects
from coarse to fine. Furthermore, we propose a spatiotemporal adaptive fusion
module to integrate content and motion control across various sampling steps
and spatial locations. Extensive experiments demonstrate that our ReVideo has
promising performance on several accurate video editing applications, i.e., (1)
locally changing video content while keeping the motion constant, (2) keeping
content unchanged and customizing new motion trajectories, (3) modifying both
content and motion trajectories. Our method can also seamlessly extend these
applications to multi-area editing without specific training, demonstrating its
flexibility and robustness.Summary
AI-Generated Summary