Edição de Vídeo via Distilação de Difusão Fatorizada
Video Editing via Factorized Diffusion Distillation
March 14, 2024
Autores: Uriel Singer, Amit Zohar, Yuval Kirstain, Shelly Sheynin, Adam Polyak, Devi Parikh, Yaniv Taigman
cs.AI
Resumo
Apresentamos o Emu Video Edit (EVE), um modelo que estabelece um novo estado da arte em edição de vídeo sem depender de dados supervisionados de edição de vídeo. Para desenvolver o EVE, treinamos separadamente um adaptador de edição de imagens e um adaptador de geração de vídeo, e os conectamos ao mesmo modelo de texto para imagem. Em seguida, para alinhar os adaptadores à edição de vídeo, introduzimos um novo procedimento de destilação não supervisionada, a Destilação de Difusão Fatorizada. Esse procedimento destila conhecimento de um ou mais modelos de referência simultaneamente, sem qualquer dado supervisionado. Utilizamos esse procedimento para ensinar o EVE a editar vídeos, destilando conhecimento conjuntamente para (i) editar com precisão cada quadro individual a partir do adaptador de edição de imagens, e (ii) garantir consistência temporal entre os quadros editados usando o adaptador de geração de vídeo. Por fim, para demonstrar o potencial de nossa abordagem em desbloquear outras capacidades, alinhamos combinações adicionais de adaptadores.
English
We introduce Emu Video Edit (EVE), a model that establishes a new
state-of-the art in video editing without relying on any supervised video
editing data. To develop EVE we separately train an image editing adapter and a
video generation adapter, and attach both to the same text-to-image model.
Then, to align the adapters towards video editing we introduce a new
unsupervised distillation procedure, Factorized Diffusion Distillation. This
procedure distills knowledge from one or more teachers simultaneously, without
any supervised data. We utilize this procedure to teach EVE to edit videos by
jointly distilling knowledge to (i) precisely edit each individual frame from
the image editing adapter, and (ii) ensure temporal consistency among the
edited frames using the video generation adapter. Finally, to demonstrate the
potential of our approach in unlocking other capabilities, we align additional
combinations of adapters