AnyV2V: Ein Plug-and-Play-Framework für beliebige Video-zu-Video-Bearbeitungsaufgaben

papers.abstract

Die Bearbeitung von Video-zu-Video beinhaltet die Bearbeitung eines Quellvideos zusammen mit zusätzlicher Steuerung (wie Textanweisungen, Themen oder Stilen), um ein neues Video zu generieren, das mit dem Quellvideo und der bereitgestellten Steuerung übereinstimmt. Traditionelle Methoden waren auf bestimmte Bearbeitungstypen beschränkt, was ihre Fähigkeit einschränkte, den breiten Bereich der Benutzeranforderungen zu erfüllen. In diesem Papier stellen wir AnyV2V vor, ein neuartiges trainingsfreies Framework, das entwickelt wurde, um die Videobearbeitung in zwei Hauptschritte zu vereinfachen: (1) Verwendung eines handelsüblichen Bildbearbeitungsmodells (z. B. InstructPix2Pix, InstantID usw.) zur Modifizierung des ersten Frames, (2) Nutzung eines bestehenden Bild-zu-Video-Generierungsmodells (z. B. I2VGen-XL) für DDIM-Inversion und Merkmalseinspritzung. In der ersten Phase kann AnyV2V beliebige vorhandene Bildbearbeitungswerkzeuge einsetzen, um eine umfangreiche Palette von Videobearbeitungsaufgaben zu unterstützen. Neben den traditionellen promptbasierten Bearbeitungsmethoden kann AnyV2V auch neuartige Videobearbeitungsaufgaben unterstützen, darunter stilbasierte Übertragung mit Referenz, themenorientierte Bearbeitung und Identitätsmanipulation, die von früheren Methoden unerreichbar waren. In der zweiten Phase kann AnyV2V beliebige vorhandene Bild-zu-Video-Modelle einsetzen, um DDIM-Inversion und Zwischenmerkmalseinspritzung durchzuführen, um das Aussehen und die Bewegungskonsistenz mit dem Quellvideo aufrechtzuerhalten. Bei der promptbasierten Bearbeitung zeigen wir, dass AnyV2V die bisher beste Methode um 35\% bei der promptbasierten Ausrichtung und um 25\% bei der menschlichen Präferenz übertreffen kann. Bei den drei neuartigen Aufgaben zeigen wir, dass AnyV2V ebenfalls eine hohe Erfolgsrate erzielt. Wir glauben, dass AnyV2V aufgrund seiner Fähigkeit, nahtlos die sich schnell entwickelnden Bildbearbeitungsmethoden zu integrieren, weiter gedeihen wird. Eine solche Kompatibilität kann AnyV2V dabei helfen, seine Vielseitigkeit zu erhöhen, um den vielfältigen Benutzeranforderungen gerecht zu werden.

English

Video-to-video editing involves editing a source video along with additional control (such as text prompts, subjects, or styles) to generate a new video that aligns with the source video and the provided control. Traditional methods have been constrained to certain editing types, limiting their ability to meet the wide range of user demands. In this paper, we introduce AnyV2V, a novel training-free framework designed to simplify video editing into two primary steps: (1) employing an off-the-shelf image editing model (e.g. InstructPix2Pix, InstantID, etc) to modify the first frame, (2) utilizing an existing image-to-video generation model (e.g. I2VGen-XL) for DDIM inversion and feature injection. In the first stage, AnyV2V can plug in any existing image editing tools to support an extensive array of video editing tasks. Beyond the traditional prompt-based editing methods, AnyV2V also can support novel video editing tasks, including reference-based style transfer, subject-driven editing, and identity manipulation, which were unattainable by previous methods. In the second stage, AnyV2V can plug in any existing image-to-video models to perform DDIM inversion and intermediate feature injection to maintain the appearance and motion consistency with the source video. On the prompt-based editing, we show that AnyV2V can outperform the previous best approach by 35\% on prompt alignment, and 25\% on human preference. On the three novel tasks, we show that AnyV2V also achieves a high success rate. We believe AnyV2V will continue to thrive due to its ability to seamlessly integrate the fast-evolving image editing methods. Such compatibility can help AnyV2V to increase its versatility to cater to diverse user demands.

AnyV2V: Ein Plug-and-Play-Framework für beliebige Video-zu-Video-Bearbeitungsaufgaben

AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks

papers.abstract

Support