ReVideo: Recriar um Vídeo com Controle de Movimento e Conteúdo
ReVideo: Remake a Video with Motion and Content Control
May 22, 2024
Autores: Chong Mou, Mingdeng Cao, Xintao Wang, Zhaoyang Zhang, Ying Shan, Jian Zhang
cs.AI
Resumo
Apesar dos avanços significativos na geração e edição de vídeos utilizando modelos de difusão, alcançar uma edição de vídeo precisa e localizada continua sendo um desafio substancial. Além disso, a maioria dos métodos existentes de edição de vídeo concentra-se principalmente na alteração do conteúdo visual, com pesquisas limitadas dedicadas à edição de movimento. Neste artigo, apresentamos uma nova abordagem para Remake a Video (ReVideo), que se destaca dos métodos existentes ao permitir a edição precisa de vídeos em áreas específicas por meio da especificação tanto do conteúdo quanto do movimento. A edição de conteúdo é facilitada pela modificação do primeiro quadro, enquanto o controle de movimento baseado em trajetória oferece uma experiência intuitiva de interação do usuário. O ReVideo aborda uma nova tarefa envolvendo o acoplamento e o desequilíbrio de treinamento entre o controle de conteúdo e movimento. Para lidar com isso, desenvolvemos uma estratégia de treinamento em três estágios que progressivamente desacopla esses dois aspectos, do grosseiro ao refinado. Além disso, propomos um módulo de fusão espaço-temporal adaptativa para integrar o controle de conteúdo e movimento em várias etapas de amostragem e localizações espaciais. Experimentos extensivos demonstram que o nosso ReVideo tem um desempenho promissor em várias aplicações de edição de vídeo precisas, ou seja, (1) alterar localmente o conteúdo do vídeo mantendo o movimento constante, (2) manter o conteúdo inalterado e personalizar novas trajetórias de movimento, (3) modificar tanto o conteúdo quanto as trajetórias de movimento. O nosso método também pode estender essas aplicações de forma contínua para edição em múltiplas áreas sem treinamento específico, demonstrando sua flexibilidade e robustez.
English
Despite significant advancements in video generation and editing using
diffusion models, achieving accurate and localized video editing remains a
substantial challenge. Additionally, most existing video editing methods
primarily focus on altering visual content, with limited research dedicated to
motion editing. In this paper, we present a novel attempt to Remake a Video
(ReVideo) which stands out from existing methods by allowing precise video
editing in specific areas through the specification of both content and motion.
Content editing is facilitated by modifying the first frame, while the
trajectory-based motion control offers an intuitive user interaction
experience. ReVideo addresses a new task involving the coupling and training
imbalance between content and motion control. To tackle this, we develop a
three-stage training strategy that progressively decouples these two aspects
from coarse to fine. Furthermore, we propose a spatiotemporal adaptive fusion
module to integrate content and motion control across various sampling steps
and spatial locations. Extensive experiments demonstrate that our ReVideo has
promising performance on several accurate video editing applications, i.e., (1)
locally changing video content while keeping the motion constant, (2) keeping
content unchanged and customizing new motion trajectories, (3) modifying both
content and motion trajectories. Our method can also seamlessly extend these
applications to multi-area editing without specific training, demonstrating its
flexibility and robustness.