AnyV2V: Een Plug-and-Play Framework voor Alle Video-naar-Video Bewerkingstaken
AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks
March 21, 2024
Auteurs: Max Ku, Cong Wei, Weiming Ren, Huan Yang, Wenhu Chen
cs.AI
Samenvatting
Video-to-video editing houdt in dat een bronvideo wordt bewerkt samen met aanvullende controle (zoals tekstprompts, onderwerpen of stijlen) om een nieuwe video te genereren die aansluit bij de bronvideo en de verstrekte controle. Traditionele methoden waren beperkt tot bepaalde bewerkingstypes, wat hun vermogen om aan de brede waaier van gebruikersbehoeften te voldoen, beperkte. In dit artikel introduceren we AnyV2V, een nieuw trainingsvrij framework dat is ontworpen om videobewerking te vereenvoudigen tot twee primaire stappen: (1) het inzetten van een bestaand beeldbewerkingsmodel (bijv. InstructPix2Pix, InstantID, etc.) om het eerste frame te wijzigen, (2) het gebruik van een bestaand beeld-naar-video-generatiemodel (bijv. I2VGen-XL) voor DDIM-inversie en feature-injectie. In de eerste fase kan AnyV2V elk bestaand beeldbewerkingsgereedschap inpluggen om een breed scala aan videobewerkingstaken te ondersteunen. Naast de traditionele prompt-gebaseerde bewerkingsmethoden kan AnyV2V ook nieuwe videobewerkingstaken ondersteunen, waaronder referentie-gebaseerde stijloverdracht, onderwerp-gedreven bewerking en identiteitsmanipulatie, die voorheen onbereikbaar waren. In de tweede fase kan AnyV2V elk bestaand beeld-naar-videomodel inpluggen om DDIM-inversie en tussentijdse feature-injectie uit te voeren om de consistentie van uiterlijk en beweging met de bronvideo te behouden. Bij prompt-gebaseerde bewerking laten we zien dat AnyV2V de vorige beste aanpak met 35\% kan overtreffen op prompt-alignment en met 25\% op menselijke voorkeur. Op de drie nieuwe taken laten we zien dat AnyV2V ook een hoog slagingspercentage behaalt. Wij geloven dat AnyV2V zal blijven gedijen vanwege zijn vermogen om naadloos te integreren met de snel evoluerende beeldbewerkingsmethoden. Deze compatibiliteit kan AnyV2V helpen om zijn veelzijdigheid te vergroten en aan diverse gebruikersbehoeften te voldoen.
English
Video-to-video editing involves editing a source video along with additional
control (such as text prompts, subjects, or styles) to generate a new video
that aligns with the source video and the provided control. Traditional methods
have been constrained to certain editing types, limiting their ability to meet
the wide range of user demands. In this paper, we introduce AnyV2V, a novel
training-free framework designed to simplify video editing into two primary
steps: (1) employing an off-the-shelf image editing model (e.g.
InstructPix2Pix, InstantID, etc) to modify the first frame, (2) utilizing an
existing image-to-video generation model (e.g. I2VGen-XL) for DDIM inversion
and feature injection. In the first stage, AnyV2V can plug in any existing
image editing tools to support an extensive array of video editing tasks.
Beyond the traditional prompt-based editing methods, AnyV2V also can support
novel video editing tasks, including reference-based style transfer,
subject-driven editing, and identity manipulation, which were unattainable by
previous methods. In the second stage, AnyV2V can plug in any existing
image-to-video models to perform DDIM inversion and intermediate feature
injection to maintain the appearance and motion consistency with the source
video. On the prompt-based editing, we show that AnyV2V can outperform the
previous best approach by 35\% on prompt alignment, and 25\% on human
preference. On the three novel tasks, we show that AnyV2V also achieves a high
success rate. We believe AnyV2V will continue to thrive due to its ability to
seamlessly integrate the fast-evolving image editing methods. Such
compatibility can help AnyV2V to increase its versatility to cater to diverse
user demands.