Edición de videos mediante destilación de difusión factorizada

Resumen

Presentamos Emu Video Edit (EVE), un modelo que establece un nuevo estado del arte en la edición de videos sin depender de datos supervisados de edición de video. Para desarrollar EVE, entrenamos por separado un adaptador de edición de imágenes y un adaptador de generación de videos, y los conectamos al mismo modelo de texto a imagen. Luego, para alinear los adaptadores hacia la edición de videos, introducimos un nuevo procedimiento de destilación no supervisada: Factorized Diffusion Distillation. Este procedimiento destila conocimiento de uno o más modelos maestros simultáneamente, sin necesidad de datos supervisados. Utilizamos este procedimiento para enseñar a EVE a editar videos mediante la destilación conjunta de conocimiento para (i) editar con precisión cada fotograma individual utilizando el adaptador de edición de imágenes, y (ii) garantizar la consistencia temporal entre los fotogramas editados utilizando el adaptador de generación de videos. Finalmente, para demostrar el potencial de nuestro enfoque en desbloquear otras capacidades, alineamos combinaciones adicionales de adaptadores.

English

We introduce Emu Video Edit (EVE), a model that establishes a new state-of-the art in video editing without relying on any supervised video editing data. To develop EVE we separately train an image editing adapter and a video generation adapter, and attach both to the same text-to-image model. Then, to align the adapters towards video editing we introduce a new unsupervised distillation procedure, Factorized Diffusion Distillation. This procedure distills knowledge from one or more teachers simultaneously, without any supervised data. We utilize this procedure to teach EVE to edit videos by jointly distilling knowledge to (i) precisely edit each individual frame from the image editing adapter, and (ii) ensure temporal consistency among the edited frames using the video generation adapter. Finally, to demonstrate the potential of our approach in unlocking other capabilities, we align additional combinations of adapters

Edición de videos mediante destilación de difusión factorizada

Video Editing via Factorized Diffusion Distillation

Resumen

Support