ChatPaper.aiChatPaper

AnyV2V : Un cadre plug-and-play pour toute tâche d'édition vidéo-à-vidéo

AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks

March 21, 2024
Auteurs: Max Ku, Cong Wei, Weiming Ren, Huan Yang, Wenhu Chen
cs.AI

Résumé

L'édition vidéo-à-vidéo consiste à modifier une vidéo source en y ajoutant des contrôles supplémentaires (tels que des invites textuelles, des sujets ou des styles) pour générer une nouvelle vidéo qui s'aligne à la fois sur la vidéo source et sur les contrôles fournis. Les méthodes traditionnelles étaient limitées à certains types d'édition, restreignant ainsi leur capacité à répondre à la diversité des demandes des utilisateurs. Dans cet article, nous présentons AnyV2V, un nouveau framework sans apprentissage conçu pour simplifier l'édition vidéo en deux étapes principales : (1) utiliser un modèle d'édition d'images prêt à l'emploi (par exemple, InstructPix2Pix, InstantID, etc.) pour modifier la première image, (2) exploiter un modèle existant de génération d'images-à-vidéo (par exemple, I2VGen-XL) pour l'inversion DDIM et l'injection de caractéristiques. Dans la première étape, AnyV2V peut intégrer n'importe quel outil d'édition d'images existant pour prendre en charge une large gamme de tâches d'édition vidéo. Au-delà des méthodes d'édition traditionnelles basées sur des invites, AnyV2V peut également gérer des tâches d'édition vidéo innovantes, telles que le transfert de style basé sur une référence, l'édition pilotée par un sujet et la manipulation d'identité, qui étaient inaccessibles aux méthodes précédentes. Dans la deuxième étape, AnyV2V peut intégrer n'importe quel modèle d'images-à-vidéo existant pour effectuer l'inversion DDIM et l'injection de caractéristiques intermédiaires afin de préserver la cohérence d'apparence et de mouvement avec la vidéo source. Sur l'édition basée sur des invites, nous montrons qu'AnyV2V surpasse la meilleure approche précédente de 35 % en termes d'alignement sur l'invite et de 25 % en termes de préférence humaine. Sur les trois nouvelles tâches, AnyV2V atteint également un taux de réussite élevé. Nous croyons qu'AnyV2V continuera à prospérer grâce à sa capacité à intégrer de manière transparente les méthodes d'édition d'images en évolution rapide. Une telle compatibilité peut aider AnyV2V à accroître sa polyvalence pour répondre aux diverses demandes des utilisateurs.
English
Video-to-video editing involves editing a source video along with additional control (such as text prompts, subjects, or styles) to generate a new video that aligns with the source video and the provided control. Traditional methods have been constrained to certain editing types, limiting their ability to meet the wide range of user demands. In this paper, we introduce AnyV2V, a novel training-free framework designed to simplify video editing into two primary steps: (1) employing an off-the-shelf image editing model (e.g. InstructPix2Pix, InstantID, etc) to modify the first frame, (2) utilizing an existing image-to-video generation model (e.g. I2VGen-XL) for DDIM inversion and feature injection. In the first stage, AnyV2V can plug in any existing image editing tools to support an extensive array of video editing tasks. Beyond the traditional prompt-based editing methods, AnyV2V also can support novel video editing tasks, including reference-based style transfer, subject-driven editing, and identity manipulation, which were unattainable by previous methods. In the second stage, AnyV2V can plug in any existing image-to-video models to perform DDIM inversion and intermediate feature injection to maintain the appearance and motion consistency with the source video. On the prompt-based editing, we show that AnyV2V can outperform the previous best approach by 35\% on prompt alignment, and 25\% on human preference. On the three novel tasks, we show that AnyV2V also achieves a high success rate. We believe AnyV2V will continue to thrive due to its ability to seamlessly integrate the fast-evolving image editing methods. Such compatibility can help AnyV2V to increase its versatility to cater to diverse user demands.

Summary

AI-Generated Summary

PDF271December 15, 2024