AnyV2V: Un Framework Plug-and-Play per Qualsiasi Attività di Editing Video-to-Video

Abstract

L'editing video-to-video consiste nel modificare un video sorgente insieme a controlli aggiuntivi (come prompt testuali, soggetti o stili) per generare un nuovo video che sia allineato con il video sorgente e i controlli forniti. I metodi tradizionali sono stati limitati a determinati tipi di editing, riducendo la loro capacità di soddisfare le ampie esigenze degli utenti. In questo articolo, introduciamo AnyV2V, un nuovo framework senza addestramento progettato per semplificare l'editing video in due passaggi principali: (1) utilizzare un modello di editing di immagini preesistente (ad esempio, InstructPix2Pix, InstantID, ecc.) per modificare il primo fotogramma, (2) impiegare un modello esistente di generazione da immagine a video (ad esempio, I2VGen-XL) per l'inversione DDIM e l'iniezione di feature. Nella prima fase, AnyV2V può integrare qualsiasi strumento di editing di immagini esistente per supportare una vasta gamma di attività di editing video. Oltre ai tradizionali metodi di editing basati su prompt, AnyV2V può anche supportare nuove attività di editing video, tra cui il trasferimento di stile basato su riferimento, l'editing guidato dal soggetto e la manipolazione dell'identità, che erano irraggiungibili con i metodi precedenti. Nella seconda fase, AnyV2V può integrare qualsiasi modello esistente da immagine a video per eseguire l'inversione DDIM e l'iniezione di feature intermedie, mantenendo la coerenza dell'aspetto e del movimento con il video sorgente. Nell'editing basato su prompt, dimostriamo che AnyV2V supera il miglior approccio precedente del 35% nell'allineamento del prompt e del 25% nella preferenza umana. Nelle tre nuove attività, dimostriamo che AnyV2V raggiunge anche un alto tasso di successo. Crediamo che AnyV2V continuerà a prosperare grazie alla sua capacità di integrare senza soluzione di continuità i metodi di editing di immagini in rapida evoluzione. Tale compatibilità può aiutare AnyV2V ad aumentare la sua versatilità per soddisfare le diverse esigenze degli utenti.

English

Video-to-video editing involves editing a source video along with additional control (such as text prompts, subjects, or styles) to generate a new video that aligns with the source video and the provided control. Traditional methods have been constrained to certain editing types, limiting their ability to meet the wide range of user demands. In this paper, we introduce AnyV2V, a novel training-free framework designed to simplify video editing into two primary steps: (1) employing an off-the-shelf image editing model (e.g. InstructPix2Pix, InstantID, etc) to modify the first frame, (2) utilizing an existing image-to-video generation model (e.g. I2VGen-XL) for DDIM inversion and feature injection. In the first stage, AnyV2V can plug in any existing image editing tools to support an extensive array of video editing tasks. Beyond the traditional prompt-based editing methods, AnyV2V also can support novel video editing tasks, including reference-based style transfer, subject-driven editing, and identity manipulation, which were unattainable by previous methods. In the second stage, AnyV2V can plug in any existing image-to-video models to perform DDIM inversion and intermediate feature injection to maintain the appearance and motion consistency with the source video. On the prompt-based editing, we show that AnyV2V can outperform the previous best approach by 35\% on prompt alignment, and 25\% on human preference. On the three novel tasks, we show that AnyV2V also achieves a high success rate. We believe AnyV2V will continue to thrive due to its ability to seamlessly integrate the fast-evolving image editing methods. Such compatibility can help AnyV2V to increase its versatility to cater to diverse user demands.

AnyV2V: Un Framework Plug-and-Play per Qualsiasi Attività di Editing Video-to-Video

AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks

Abstract

Support