Edición de videos mediante destilación de difusión factorizada
Video Editing via Factorized Diffusion Distillation
March 14, 2024
Autores: Uriel Singer, Amit Zohar, Yuval Kirstain, Shelly Sheynin, Adam Polyak, Devi Parikh, Yaniv Taigman
cs.AI
Resumen
Presentamos Emu Video Edit (EVE), un modelo que establece un nuevo estado del arte en la edición de videos sin depender de datos supervisados de edición de video. Para desarrollar EVE, entrenamos por separado un adaptador de edición de imágenes y un adaptador de generación de videos, y los conectamos al mismo modelo de texto a imagen. Luego, para alinear los adaptadores hacia la edición de videos, introducimos un nuevo procedimiento de destilación no supervisada: Factorized Diffusion Distillation. Este procedimiento destila conocimiento de uno o más modelos maestros simultáneamente, sin necesidad de datos supervisados. Utilizamos este procedimiento para enseñar a EVE a editar videos mediante la destilación conjunta de conocimiento para (i) editar con precisión cada fotograma individual utilizando el adaptador de edición de imágenes, y (ii) garantizar la consistencia temporal entre los fotogramas editados utilizando el adaptador de generación de videos. Finalmente, para demostrar el potencial de nuestro enfoque en desbloquear otras capacidades, alineamos combinaciones adicionales de adaptadores.
English
We introduce Emu Video Edit (EVE), a model that establishes a new
state-of-the art in video editing without relying on any supervised video
editing data. To develop EVE we separately train an image editing adapter and a
video generation adapter, and attach both to the same text-to-image model.
Then, to align the adapters towards video editing we introduce a new
unsupervised distillation procedure, Factorized Diffusion Distillation. This
procedure distills knowledge from one or more teachers simultaneously, without
any supervised data. We utilize this procedure to teach EVE to edit videos by
jointly distilling knowledge to (i) precisely edit each individual frame from
the image editing adapter, and (ii) ensure temporal consistency among the
edited frames using the video generation adapter. Finally, to demonstrate the
potential of our approach in unlocking other capabilities, we align additional
combinations of adaptersSummary
AI-Generated Summary