AnyV2V: Un Framework Plug-and-Play per Qualsiasi Attività di Editing Video-to-Video
AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks
March 21, 2024
Autori: Max Ku, Cong Wei, Weiming Ren, Huan Yang, Wenhu Chen
cs.AI
Abstract
L'editing video-to-video consiste nel modificare un video sorgente insieme a controlli aggiuntivi (come prompt testuali, soggetti o stili) per generare un nuovo video che sia allineato con il video sorgente e i controlli forniti. I metodi tradizionali sono stati limitati a determinati tipi di editing, riducendo la loro capacità di soddisfare le ampie esigenze degli utenti. In questo articolo, introduciamo AnyV2V, un nuovo framework senza addestramento progettato per semplificare l'editing video in due passaggi principali: (1) utilizzare un modello di editing di immagini preesistente (ad esempio, InstructPix2Pix, InstantID, ecc.) per modificare il primo fotogramma, (2) impiegare un modello esistente di generazione da immagine a video (ad esempio, I2VGen-XL) per l'inversione DDIM e l'iniezione di feature. Nella prima fase, AnyV2V può integrare qualsiasi strumento di editing di immagini esistente per supportare una vasta gamma di attività di editing video. Oltre ai tradizionali metodi di editing basati su prompt, AnyV2V può anche supportare nuove attività di editing video, tra cui il trasferimento di stile basato su riferimento, l'editing guidato dal soggetto e la manipolazione dell'identità, che erano irraggiungibili con i metodi precedenti. Nella seconda fase, AnyV2V può integrare qualsiasi modello esistente da immagine a video per eseguire l'inversione DDIM e l'iniezione di feature intermedie, mantenendo la coerenza dell'aspetto e del movimento con il video sorgente. Nell'editing basato su prompt, dimostriamo che AnyV2V supera il miglior approccio precedente del 35% nell'allineamento del prompt e del 25% nella preferenza umana. Nelle tre nuove attività, dimostriamo che AnyV2V raggiunge anche un alto tasso di successo. Crediamo che AnyV2V continuerà a prosperare grazie alla sua capacità di integrare senza soluzione di continuità i metodi di editing di immagini in rapida evoluzione. Tale compatibilità può aiutare AnyV2V ad aumentare la sua versatilità per soddisfare le diverse esigenze degli utenti.
English
Video-to-video editing involves editing a source video along with additional
control (such as text prompts, subjects, or styles) to generate a new video
that aligns with the source video and the provided control. Traditional methods
have been constrained to certain editing types, limiting their ability to meet
the wide range of user demands. In this paper, we introduce AnyV2V, a novel
training-free framework designed to simplify video editing into two primary
steps: (1) employing an off-the-shelf image editing model (e.g.
InstructPix2Pix, InstantID, etc) to modify the first frame, (2) utilizing an
existing image-to-video generation model (e.g. I2VGen-XL) for DDIM inversion
and feature injection. In the first stage, AnyV2V can plug in any existing
image editing tools to support an extensive array of video editing tasks.
Beyond the traditional prompt-based editing methods, AnyV2V also can support
novel video editing tasks, including reference-based style transfer,
subject-driven editing, and identity manipulation, which were unattainable by
previous methods. In the second stage, AnyV2V can plug in any existing
image-to-video models to perform DDIM inversion and intermediate feature
injection to maintain the appearance and motion consistency with the source
video. On the prompt-based editing, we show that AnyV2V can outperform the
previous best approach by 35\% on prompt alignment, and 25\% on human
preference. On the three novel tasks, we show that AnyV2V also achieves a high
success rate. We believe AnyV2V will continue to thrive due to its ability to
seamlessly integrate the fast-evolving image editing methods. Such
compatibility can help AnyV2V to increase its versatility to cater to diverse
user demands.