ReVideo: Ricreare un Video con Controllo del Movimento e del Contenuto
ReVideo: Remake a Video with Motion and Content Control
May 22, 2024
Autori: Chong Mou, Mingdeng Cao, Xintao Wang, Zhaoyang Zhang, Ying Shan, Jian Zhang
cs.AI
Abstract
Nonostante i significativi progressi nella generazione e modifica di video utilizzando modelli di diffusione, ottenere una modifica video accurata e localizzata rimane una sfida considerevole. Inoltre, la maggior parte dei metodi esistenti per la modifica video si concentra principalmente sull'alterazione del contenuto visivo, con una ricerca limitata dedicata alla modifica del movimento. In questo articolo, presentiamo un nuovo tentativo di Rimodellare un Video (ReVideo) che si distingue dai metodi esistenti consentendo una modifica video precisa in aree specifiche attraverso la specificazione sia del contenuto che del movimento. La modifica del contenuto è facilitata dalla modifica del primo fotogramma, mentre il controllo del movimento basato su traiettorie offre un'esperienza di interazione utente intuitiva. ReVideo affronta un nuovo compito che coinvolge l'accoppiamento e lo squilibrio di addestramento tra il controllo del contenuto e del movimento. Per affrontare questo problema, sviluppiamo una strategia di addestramento in tre fasi che progressivamente disaccoppia questi due aspetti da un livello grossolano a uno fine. Inoltre, proponiamo un modulo di fusione spazio-temporale adattivo per integrare il controllo del contenuto e del movimento attraverso vari passaggi di campionamento e posizioni spaziali. Esperimenti estensivi dimostrano che il nostro ReVideo ha prestazioni promettenti in diverse applicazioni di modifica video accurata, ovvero: (1) cambiare localmente il contenuto del video mantenendo il movimento costante, (2) mantenere il contenuto invariato e personalizzare nuove traiettorie di movimento, (3) modificare sia il contenuto che le traiettorie di movimento. Il nostro metodo può anche estendere senza soluzione di continuità queste applicazioni alla modifica multi-area senza un addestramento specifico, dimostrando la sua flessibilità e robustezza.
English
Despite significant advancements in video generation and editing using
diffusion models, achieving accurate and localized video editing remains a
substantial challenge. Additionally, most existing video editing methods
primarily focus on altering visual content, with limited research dedicated to
motion editing. In this paper, we present a novel attempt to Remake a Video
(ReVideo) which stands out from existing methods by allowing precise video
editing in specific areas through the specification of both content and motion.
Content editing is facilitated by modifying the first frame, while the
trajectory-based motion control offers an intuitive user interaction
experience. ReVideo addresses a new task involving the coupling and training
imbalance between content and motion control. To tackle this, we develop a
three-stage training strategy that progressively decouples these two aspects
from coarse to fine. Furthermore, we propose a spatiotemporal adaptive fusion
module to integrate content and motion control across various sampling steps
and spatial locations. Extensive experiments demonstrate that our ReVideo has
promising performance on several accurate video editing applications, i.e., (1)
locally changing video content while keeping the motion constant, (2) keeping
content unchanged and customizing new motion trajectories, (3) modifying both
content and motion trajectories. Our method can also seamlessly extend these
applications to multi-area editing without specific training, demonstrating its
flexibility and robustness.