Video-editing via gefactoriseerde diffusiedistillatie
Video Editing via Factorized Diffusion Distillation
March 14, 2024
Auteurs: Uriel Singer, Amit Zohar, Yuval Kirstain, Shelly Sheynin, Adam Polyak, Devi Parikh, Yaniv Taigman
cs.AI
Samenvatting
We introduceren Emu Video Edit (EVE), een model dat een nieuwe standaard zet in videobewerking zonder gebruik te maken van enige begeleide videobewerkingsdata. Om EVE te ontwikkelen, trainen we afzonderlijk een adapter voor beeldbewerking en een adapter voor videogeneratie, en koppelen we beide aan hetzelfde tekst-naar-beeldmodel. Vervolgens introduceren we een nieuwe onbegeleide distillatieprocedure, Factorized Diffusion Distillation, om de adapters af te stemmen op videobewerking. Deze procedure destilleert kennis van een of meer leraren tegelijkertijd, zonder enige begeleide data. We gebruiken deze procedure om EVE te leren video's te bewerken door gezamenlijk kennis te destilleren naar (i) het nauwkeurig bewerken van elk individueel frame via de beeldbewerkingsadapter, en (ii) het waarborgen van temporele consistentie tussen de bewerkte frames met behulp van de videogeneratieadapter. Tot slot, om het potentieel van onze aanpak te demonstreren in het ontgrendelen van andere mogelijkheden, stemmen we aanvullende combinaties van adapters af.
English
We introduce Emu Video Edit (EVE), a model that establishes a new
state-of-the art in video editing without relying on any supervised video
editing data. To develop EVE we separately train an image editing adapter and a
video generation adapter, and attach both to the same text-to-image model.
Then, to align the adapters towards video editing we introduce a new
unsupervised distillation procedure, Factorized Diffusion Distillation. This
procedure distills knowledge from one or more teachers simultaneously, without
any supervised data. We utilize this procedure to teach EVE to edit videos by
jointly distilling knowledge to (i) precisely edit each individual frame from
the image editing adapter, and (ii) ensure temporal consistency among the
edited frames using the video generation adapter. Finally, to demonstrate the
potential of our approach in unlocking other capabilities, we align additional
combinations of adapters