ReVideo: Erstellen Sie ein Video neu mit Bewegungs- und Inhaltssteuerung.
ReVideo: Remake a Video with Motion and Content Control
May 22, 2024
Autoren: Chong Mou, Mingdeng Cao, Xintao Wang, Zhaoyang Zhang, Ying Shan, Jian Zhang
cs.AI
Zusammenfassung
Trotz bedeutender Fortschritte bei der Videogenerierung und -bearbeitung mithilfe von Diffusionsmodellen bleibt die präzise und lokalisierte Videobearbeitung eine erhebliche Herausforderung. Darüber hinaus konzentrieren sich die meisten bestehenden Videobearbeitungsmethoden hauptsächlich auf die Änderung des visuellen Inhalts, während es nur begrenzte Forschung zur Bewegungsbearbeitung gibt. In diesem Artikel präsentieren wir einen neuartigen Ansatz zur Neugestaltung eines Videos (ReVideo), der sich von bestehenden Methoden abhebt, indem er präzise Videobearbeitung in spezifischen Bereichen durch die Spezifikation von Inhalt und Bewegung ermöglicht. Die Inhaltsbearbeitung wird durch die Modifikation des ersten Frames erleichtert, während die bewegungsbasierte Bewegungssteuerung eine intuitive Benutzerinteraktion bietet. ReVideo behandelt eine neue Aufgabe, die das Koppeln und das Trainingsungleichgewicht zwischen Inhalt und Bewegungssteuerung beinhaltet. Um dies zu bewältigen, entwickeln wir eine dreistufige Schulungsstrategie, die diese beiden Aspekte progressiv von grob bis fein entkoppelt. Darüber hinaus schlagen wir ein räumlich-zeitliches adaptives Fusionmodul vor, um Inhalt und Bewegungssteuerung über verschiedene Abtastschritte und räumliche Positionen zu integrieren. Umfangreiche Experimente zeigen, dass unser ReVideo vielversprechende Leistungen bei mehreren präzisen Videobearbeitungsanwendungen aufweist, nämlich (1) lokales Ändern des Videoinhalts bei gleichbleibender Bewegung, (2) Beibehalten des Inhalts und Anpassen neuer Bewegungstrajectories, (3) Modifizieren von Inhalt und Bewegungstrajectories. Unsere Methode kann diese Anwendungen auch nahtlos auf Multi-Bereich-Bearbeitung ohne spezifisches Training erweitern und zeigt damit ihre Flexibilität und Robustheit.
English
Despite significant advancements in video generation and editing using
diffusion models, achieving accurate and localized video editing remains a
substantial challenge. Additionally, most existing video editing methods
primarily focus on altering visual content, with limited research dedicated to
motion editing. In this paper, we present a novel attempt to Remake a Video
(ReVideo) which stands out from existing methods by allowing precise video
editing in specific areas through the specification of both content and motion.
Content editing is facilitated by modifying the first frame, while the
trajectory-based motion control offers an intuitive user interaction
experience. ReVideo addresses a new task involving the coupling and training
imbalance between content and motion control. To tackle this, we develop a
three-stage training strategy that progressively decouples these two aspects
from coarse to fine. Furthermore, we propose a spatiotemporal adaptive fusion
module to integrate content and motion control across various sampling steps
and spatial locations. Extensive experiments demonstrate that our ReVideo has
promising performance on several accurate video editing applications, i.e., (1)
locally changing video content while keeping the motion constant, (2) keeping
content unchanged and customizing new motion trajectories, (3) modifying both
content and motion trajectories. Our method can also seamlessly extend these
applications to multi-area editing without specific training, demonstrating its
flexibility and robustness.Summary
AI-Generated Summary