Editing Video tramite Distillazione di Diffusione Fattorizzata
Video Editing via Factorized Diffusion Distillation
March 14, 2024
Autori: Uriel Singer, Amit Zohar, Yuval Kirstain, Shelly Sheynin, Adam Polyak, Devi Parikh, Yaniv Taigman
cs.AI
Abstract
Presentiamo Emu Video Edit (EVE), un modello che stabilisce un nuovo stato dell'arte nell'editing video senza fare affidamento su dati supervisionati di editing video. Per sviluppare EVE, addestriamo separatamente un adattatore per l'editing di immagini e un adattatore per la generazione di video, collegandoli entrambi allo stesso modello text-to-image. Successivamente, per allineare gli adattatori verso l'editing video, introduciamo una nuova procedura di distillazione non supervisionata, chiamata Factorized Diffusion Distillation. Questa procedura estrae conoscenza da uno o più insegnanti contemporaneamente, senza l'uso di dati supervisionati. Utilizziamo questa procedura per insegnare a EVE a modificare i video distillando congiuntamente la conoscenza per (i) modificare con precisione ogni singolo fotogramma tramite l'adattatore di editing di immagini, e (ii) garantire la coerenza temporale tra i fotogrammi modificati utilizzando l'adattatore di generazione video. Infine, per dimostrare il potenziale del nostro approccio nello sbloccare altre capacità, allineiamo ulteriori combinazioni di adattatori.
English
We introduce Emu Video Edit (EVE), a model that establishes a new
state-of-the art in video editing without relying on any supervised video
editing data. To develop EVE we separately train an image editing adapter and a
video generation adapter, and attach both to the same text-to-image model.
Then, to align the adapters towards video editing we introduce a new
unsupervised distillation procedure, Factorized Diffusion Distillation. This
procedure distills knowledge from one or more teachers simultaneously, without
any supervised data. We utilize this procedure to teach EVE to edit videos by
jointly distilling knowledge to (i) precisely edit each individual frame from
the image editing adapter, and (ii) ensure temporal consistency among the
edited frames using the video generation adapter. Finally, to demonstrate the
potential of our approach in unlocking other capabilities, we align additional
combinations of adapters