ReVideo: Een Video Herontwerpen met Bewegings- en Inhoudscontrole
ReVideo: Remake a Video with Motion and Content Control
May 22, 2024
Auteurs: Chong Mou, Mingdeng Cao, Xintao Wang, Zhaoyang Zhang, Ying Shan, Jian Zhang
cs.AI
Samenvatting
Ondanks aanzienlijke vooruitgang in videogeneratie en -bewerking met behulp van diffusiemodellen, blijft het bereiken van nauwkeurige en gelokaliseerde videobewerking een aanzienlijke uitdaging. Bovendien richten de meeste bestaande videobewerkingsmethoden zich voornamelijk op het aanpassen van visuele inhoud, met beperkt onderzoek gewijd aan bewegingsbewerking. In dit artikel presenteren we een nieuwe benadering om een video opnieuw te maken (ReVideo), die zich onderscheidt van bestaande methoden door precieze videobewerking in specifieke gebieden mogelijk te maken door zowel inhoud als beweging te specificeren. Inhoudsbewerking wordt gefaciliteerd door het aanpassen van het eerste frame, terwijl trajectgebaseerde bewegingscontrole een intuïtieve gebruikersinteractie biedt. ReVideo behandelt een nieuwe taak die de koppeling en trainingsonbalans tussen inhouds- en bewegingscontrole omvat. Om dit aan te pakken, ontwikkelen we een drietraps trainingsstrategie die deze twee aspecten geleidelijk van grof naar fijn ontkoppelt. Daarnaast stellen we een spatiotemporele adaptieve fusiemodule voor om inhouds- en bewegingscontrole te integreren over verschillende bemonsteringsstappen en ruimtelijke locaties. Uitgebreide experimenten tonen aan dat onze ReVideo veelbelovende prestaties levert bij verschillende nauwkeurige videobewerkingsapplicaties, zoals (1) lokaal veranderen van video-inhoud terwijl de beweging constant blijft, (2) inhoud ongewijzigd houden en nieuwe bewegingsbanen aanpassen, (3) zowel inhoud als bewegingsbanen aanpassen. Onze methode kan deze applicaties ook naadloos uitbreiden naar meerdere gebieden zonder specifieke training, wat de flexibiliteit en robuustheid ervan aantoont.
English
Despite significant advancements in video generation and editing using
diffusion models, achieving accurate and localized video editing remains a
substantial challenge. Additionally, most existing video editing methods
primarily focus on altering visual content, with limited research dedicated to
motion editing. In this paper, we present a novel attempt to Remake a Video
(ReVideo) which stands out from existing methods by allowing precise video
editing in specific areas through the specification of both content and motion.
Content editing is facilitated by modifying the first frame, while the
trajectory-based motion control offers an intuitive user interaction
experience. ReVideo addresses a new task involving the coupling and training
imbalance between content and motion control. To tackle this, we develop a
three-stage training strategy that progressively decouples these two aspects
from coarse to fine. Furthermore, we propose a spatiotemporal adaptive fusion
module to integrate content and motion control across various sampling steps
and spatial locations. Extensive experiments demonstrate that our ReVideo has
promising performance on several accurate video editing applications, i.e., (1)
locally changing video content while keeping the motion constant, (2) keeping
content unchanged and customizing new motion trajectories, (3) modifying both
content and motion trajectories. Our method can also seamlessly extend these
applications to multi-area editing without specific training, demonstrating its
flexibility and robustness.