ReVideo: Recrear un Video con Control de Movimiento y Contenido

Resumen

A pesar de los avances significativos en la generación y edición de videos utilizando modelos de difusión, lograr una edición de video precisa y localizada sigue siendo un desafío considerable. Además, la mayoría de los métodos existentes de edición de video se centran principalmente en alterar el contenido visual, con una investigación limitada dedicada a la edición de movimiento. En este artículo, presentamos un nuevo enfoque para Rehacer un Video (ReVideo) que se distingue de los métodos existentes al permitir una edición precisa de video en áreas específicas mediante la especificación tanto del contenido como del movimiento. La edición de contenido se facilita modificando el primer fotograma, mientras que el control de movimiento basado en trayectorias ofrece una experiencia de interacción intuitiva para el usuario. ReVideo aborda una nueva tarea que implica el acoplamiento y el desequilibrio en el entrenamiento entre el control de contenido y movimiento. Para abordar esto, desarrollamos una estrategia de entrenamiento en tres etapas que desacopla progresivamente estos dos aspectos de lo general a lo específico. Además, proponemos un módulo de fusión espacio-temporal adaptativa para integrar el control de contenido y movimiento en varios pasos de muestreo y ubicaciones espaciales. Experimentos extensos demuestran que nuestro ReVideo tiene un rendimiento prometedor en varias aplicaciones de edición precisa de video, es decir, (1) cambiar localmente el contenido del video manteniendo el movimiento constante, (2) mantener el contenido sin cambios y personalizar nuevas trayectorias de movimiento, (3) modificar tanto el contenido como las trayectorias de movimiento. Nuestro método también puede extender sin problemas estas aplicaciones a la edición de múltiples áreas sin un entrenamiento específico, demostrando su flexibilidad y robustez.

English

Despite significant advancements in video generation and editing using diffusion models, achieving accurate and localized video editing remains a substantial challenge. Additionally, most existing video editing methods primarily focus on altering visual content, with limited research dedicated to motion editing. In this paper, we present a novel attempt to Remake a Video (ReVideo) which stands out from existing methods by allowing precise video editing in specific areas through the specification of both content and motion. Content editing is facilitated by modifying the first frame, while the trajectory-based motion control offers an intuitive user interaction experience. ReVideo addresses a new task involving the coupling and training imbalance between content and motion control. To tackle this, we develop a three-stage training strategy that progressively decouples these two aspects from coarse to fine. Furthermore, we propose a spatiotemporal adaptive fusion module to integrate content and motion control across various sampling steps and spatial locations. Extensive experiments demonstrate that our ReVideo has promising performance on several accurate video editing applications, i.e., (1) locally changing video content while keeping the motion constant, (2) keeping content unchanged and customizing new motion trajectories, (3) modifying both content and motion trajectories. Our method can also seamlessly extend these applications to multi-area editing without specific training, demonstrating its flexibility and robustness.

ReVideo: Recrear un Video con Control de Movimiento y Contenido

ReVideo: Remake a Video with Motion and Content Control

Resumen

Support