Montage vidéo via distillation de diffusion factorisée
Video Editing via Factorized Diffusion Distillation
March 14, 2024
Auteurs: Uriel Singer, Amit Zohar, Yuval Kirstain, Shelly Sheynin, Adam Polyak, Devi Parikh, Yaniv Taigman
cs.AI
Résumé
Nous présentons Emu Video Edit (EVE), un modèle qui établit un nouvel état de l'art en matière d'édition vidéo sans recourir à aucune donnée supervisée d'édition vidéo. Pour développer EVE, nous entraînons séparément un adaptateur d'édition d'images et un adaptateur de génération vidéo, puis les connectons tous deux au même modèle de génération d'images à partir de texte. Ensuite, pour aligner ces adaptateurs vers l'édition vidéo, nous introduisons une nouvelle procédure de distillation non supervisée, la Factorized Diffusion Distillation. Cette procédure distille les connaissances d'un ou plusieurs modèles enseignants simultanément, sans aucune donnée supervisée. Nous utilisons cette procédure pour enseigner à EVE à éditer des vidéos en distillant conjointement les connaissances pour (i) éditer précisément chaque image individuelle à partir de l'adaptateur d'édition d'images, et (ii) assurer la cohérence temporelle entre les images éditées en utilisant l'adaptateur de génération vidéo. Enfin, pour démontrer le potentiel de notre approche à débloquer d'autres capacités, nous alignons des combinaisons supplémentaires d'adaptateurs.
English
We introduce Emu Video Edit (EVE), a model that establishes a new
state-of-the art in video editing without relying on any supervised video
editing data. To develop EVE we separately train an image editing adapter and a
video generation adapter, and attach both to the same text-to-image model.
Then, to align the adapters towards video editing we introduce a new
unsupervised distillation procedure, Factorized Diffusion Distillation. This
procedure distills knowledge from one or more teachers simultaneously, without
any supervised data. We utilize this procedure to teach EVE to edit videos by
jointly distilling knowledge to (i) precisely edit each individual frame from
the image editing adapter, and (ii) ensure temporal consistency among the
edited frames using the video generation adapter. Finally, to demonstrate the
potential of our approach in unlocking other capabilities, we align additional
combinations of adaptersSummary
AI-Generated Summary