AnyV2V: Ein Plug-and-Play-Framework für beliebige Video-zu-Video-Bearbeitungsaufgaben
AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks
March 21, 2024
Autoren: Max Ku, Cong Wei, Weiming Ren, Huan Yang, Wenhu Chen
cs.AI
Zusammenfassung
Die Bearbeitung von Video-zu-Video beinhaltet die Bearbeitung eines Quellvideos zusammen mit zusätzlicher Steuerung (wie Textanweisungen, Themen oder Stilen), um ein neues Video zu generieren, das mit dem Quellvideo und der bereitgestellten Steuerung übereinstimmt. Traditionelle Methoden waren auf bestimmte Bearbeitungstypen beschränkt, was ihre Fähigkeit einschränkte, den breiten Bereich der Benutzeranforderungen zu erfüllen. In diesem Papier stellen wir AnyV2V vor, ein neuartiges trainingsfreies Framework, das entwickelt wurde, um die Videobearbeitung in zwei Hauptschritte zu vereinfachen: (1) Verwendung eines handelsüblichen Bildbearbeitungsmodells (z. B. InstructPix2Pix, InstantID usw.) zur Modifizierung des ersten Frames, (2) Nutzung eines bestehenden Bild-zu-Video-Generierungsmodells (z. B. I2VGen-XL) für DDIM-Inversion und Merkmalseinspritzung. In der ersten Phase kann AnyV2V beliebige vorhandene Bildbearbeitungswerkzeuge einsetzen, um eine umfangreiche Palette von Videobearbeitungsaufgaben zu unterstützen. Neben den traditionellen promptbasierten Bearbeitungsmethoden kann AnyV2V auch neuartige Videobearbeitungsaufgaben unterstützen, darunter stilbasierte Übertragung mit Referenz, themenorientierte Bearbeitung und Identitätsmanipulation, die von früheren Methoden unerreichbar waren. In der zweiten Phase kann AnyV2V beliebige vorhandene Bild-zu-Video-Modelle einsetzen, um DDIM-Inversion und Zwischenmerkmalseinspritzung durchzuführen, um das Aussehen und die Bewegungskonsistenz mit dem Quellvideo aufrechtzuerhalten. Bei der promptbasierten Bearbeitung zeigen wir, dass AnyV2V die bisher beste Methode um 35\% bei der promptbasierten Ausrichtung und um 25\% bei der menschlichen Präferenz übertreffen kann. Bei den drei neuartigen Aufgaben zeigen wir, dass AnyV2V ebenfalls eine hohe Erfolgsrate erzielt. Wir glauben, dass AnyV2V aufgrund seiner Fähigkeit, nahtlos die sich schnell entwickelnden Bildbearbeitungsmethoden zu integrieren, weiter gedeihen wird. Eine solche Kompatibilität kann AnyV2V dabei helfen, seine Vielseitigkeit zu erhöhen, um den vielfältigen Benutzeranforderungen gerecht zu werden.
English
Video-to-video editing involves editing a source video along with additional
control (such as text prompts, subjects, or styles) to generate a new video
that aligns with the source video and the provided control. Traditional methods
have been constrained to certain editing types, limiting their ability to meet
the wide range of user demands. In this paper, we introduce AnyV2V, a novel
training-free framework designed to simplify video editing into two primary
steps: (1) employing an off-the-shelf image editing model (e.g.
InstructPix2Pix, InstantID, etc) to modify the first frame, (2) utilizing an
existing image-to-video generation model (e.g. I2VGen-XL) for DDIM inversion
and feature injection. In the first stage, AnyV2V can plug in any existing
image editing tools to support an extensive array of video editing tasks.
Beyond the traditional prompt-based editing methods, AnyV2V also can support
novel video editing tasks, including reference-based style transfer,
subject-driven editing, and identity manipulation, which were unattainable by
previous methods. In the second stage, AnyV2V can plug in any existing
image-to-video models to perform DDIM inversion and intermediate feature
injection to maintain the appearance and motion consistency with the source
video. On the prompt-based editing, we show that AnyV2V can outperform the
previous best approach by 35\% on prompt alignment, and 25\% on human
preference. On the three novel tasks, we show that AnyV2V also achieves a high
success rate. We believe AnyV2V will continue to thrive due to its ability to
seamlessly integrate the fast-evolving image editing methods. Such
compatibility can help AnyV2V to increase its versatility to cater to diverse
user demands.Summary
AI-Generated Summary