ReVideo: Recrear un Video con Control de Movimiento y Contenido
ReVideo: Remake a Video with Motion and Content Control
May 22, 2024
Autores: Chong Mou, Mingdeng Cao, Xintao Wang, Zhaoyang Zhang, Ying Shan, Jian Zhang
cs.AI
Resumen
A pesar de los avances significativos en la generación y edición de videos utilizando modelos de difusión, lograr una edición de video precisa y localizada sigue siendo un desafío considerable. Además, la mayoría de los métodos existentes de edición de video se centran principalmente en alterar el contenido visual, con una investigación limitada dedicada a la edición de movimiento. En este artículo, presentamos un nuevo enfoque para Rehacer un Video (ReVideo) que se distingue de los métodos existentes al permitir una edición precisa de video en áreas específicas mediante la especificación tanto del contenido como del movimiento. La edición de contenido se facilita modificando el primer fotograma, mientras que el control de movimiento basado en trayectorias ofrece una experiencia de interacción intuitiva para el usuario. ReVideo aborda una nueva tarea que implica el acoplamiento y el desequilibrio en el entrenamiento entre el control de contenido y movimiento. Para abordar esto, desarrollamos una estrategia de entrenamiento en tres etapas que desacopla progresivamente estos dos aspectos de lo general a lo específico. Además, proponemos un módulo de fusión espacio-temporal adaptativa para integrar el control de contenido y movimiento en varios pasos de muestreo y ubicaciones espaciales. Experimentos extensos demuestran que nuestro ReVideo tiene un rendimiento prometedor en varias aplicaciones de edición precisa de video, es decir, (1) cambiar localmente el contenido del video manteniendo el movimiento constante, (2) mantener el contenido sin cambios y personalizar nuevas trayectorias de movimiento, (3) modificar tanto el contenido como las trayectorias de movimiento. Nuestro método también puede extender sin problemas estas aplicaciones a la edición de múltiples áreas sin un entrenamiento específico, demostrando su flexibilidad y robustez.
English
Despite significant advancements in video generation and editing using
diffusion models, achieving accurate and localized video editing remains a
substantial challenge. Additionally, most existing video editing methods
primarily focus on altering visual content, with limited research dedicated to
motion editing. In this paper, we present a novel attempt to Remake a Video
(ReVideo) which stands out from existing methods by allowing precise video
editing in specific areas through the specification of both content and motion.
Content editing is facilitated by modifying the first frame, while the
trajectory-based motion control offers an intuitive user interaction
experience. ReVideo addresses a new task involving the coupling and training
imbalance between content and motion control. To tackle this, we develop a
three-stage training strategy that progressively decouples these two aspects
from coarse to fine. Furthermore, we propose a spatiotemporal adaptive fusion
module to integrate content and motion control across various sampling steps
and spatial locations. Extensive experiments demonstrate that our ReVideo has
promising performance on several accurate video editing applications, i.e., (1)
locally changing video content while keeping the motion constant, (2) keeping
content unchanged and customizing new motion trajectories, (3) modifying both
content and motion trajectories. Our method can also seamlessly extend these
applications to multi-area editing without specific training, demonstrating its
flexibility and robustness.