AnyV2V : Un cadre plug-and-play pour toute tâche d'édition vidéo-à-vidéo
AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks
March 21, 2024
Auteurs: Max Ku, Cong Wei, Weiming Ren, Huan Yang, Wenhu Chen
cs.AI
Résumé
L'édition vidéo-à-vidéo consiste à modifier une vidéo source en y ajoutant des contrôles supplémentaires (tels que des invites textuelles, des sujets ou des styles) pour générer une nouvelle vidéo qui s'aligne à la fois sur la vidéo source et sur les contrôles fournis. Les méthodes traditionnelles étaient limitées à certains types d'édition, restreignant ainsi leur capacité à répondre à la diversité des demandes des utilisateurs. Dans cet article, nous présentons AnyV2V, un nouveau framework sans apprentissage conçu pour simplifier l'édition vidéo en deux étapes principales : (1) utiliser un modèle d'édition d'images prêt à l'emploi (par exemple, InstructPix2Pix, InstantID, etc.) pour modifier la première image, (2) exploiter un modèle existant de génération d'images-à-vidéo (par exemple, I2VGen-XL) pour l'inversion DDIM et l'injection de caractéristiques. Dans la première étape, AnyV2V peut intégrer n'importe quel outil d'édition d'images existant pour prendre en charge une large gamme de tâches d'édition vidéo. Au-delà des méthodes d'édition traditionnelles basées sur des invites, AnyV2V peut également gérer des tâches d'édition vidéo innovantes, telles que le transfert de style basé sur une référence, l'édition pilotée par un sujet et la manipulation d'identité, qui étaient inaccessibles aux méthodes précédentes. Dans la deuxième étape, AnyV2V peut intégrer n'importe quel modèle d'images-à-vidéo existant pour effectuer l'inversion DDIM et l'injection de caractéristiques intermédiaires afin de préserver la cohérence d'apparence et de mouvement avec la vidéo source. Sur l'édition basée sur des invites, nous montrons qu'AnyV2V surpasse la meilleure approche précédente de 35 % en termes d'alignement sur l'invite et de 25 % en termes de préférence humaine. Sur les trois nouvelles tâches, AnyV2V atteint également un taux de réussite élevé. Nous croyons qu'AnyV2V continuera à prospérer grâce à sa capacité à intégrer de manière transparente les méthodes d'édition d'images en évolution rapide. Une telle compatibilité peut aider AnyV2V à accroître sa polyvalence pour répondre aux diverses demandes des utilisateurs.
English
Video-to-video editing involves editing a source video along with additional
control (such as text prompts, subjects, or styles) to generate a new video
that aligns with the source video and the provided control. Traditional methods
have been constrained to certain editing types, limiting their ability to meet
the wide range of user demands. In this paper, we introduce AnyV2V, a novel
training-free framework designed to simplify video editing into two primary
steps: (1) employing an off-the-shelf image editing model (e.g.
InstructPix2Pix, InstantID, etc) to modify the first frame, (2) utilizing an
existing image-to-video generation model (e.g. I2VGen-XL) for DDIM inversion
and feature injection. In the first stage, AnyV2V can plug in any existing
image editing tools to support an extensive array of video editing tasks.
Beyond the traditional prompt-based editing methods, AnyV2V also can support
novel video editing tasks, including reference-based style transfer,
subject-driven editing, and identity manipulation, which were unattainable by
previous methods. In the second stage, AnyV2V can plug in any existing
image-to-video models to perform DDIM inversion and intermediate feature
injection to maintain the appearance and motion consistency with the source
video. On the prompt-based editing, we show that AnyV2V can outperform the
previous best approach by 35\% on prompt alignment, and 25\% on human
preference. On the three novel tasks, we show that AnyV2V also achieves a high
success rate. We believe AnyV2V will continue to thrive due to its ability to
seamlessly integrate the fast-evolving image editing methods. Such
compatibility can help AnyV2V to increase its versatility to cater to diverse
user demands.Summary
AI-Generated Summary