Videobearbeitung durch faktorisierte Diffusionsdestillation.
Video Editing via Factorized Diffusion Distillation
March 14, 2024
Autoren: Uriel Singer, Amit Zohar, Yuval Kirstain, Shelly Sheynin, Adam Polyak, Devi Parikh, Yaniv Taigman
cs.AI
Zusammenfassung
Wir stellen Emu Video Edit (EVE) vor, ein Modell, das einen neuen Stand der Technik in der Videobearbeitung etabliert, ohne auf überwachte Videobearbeitungsdaten angewiesen zu sein. Um EVE zu entwickeln, trainieren wir separat einen Bildbearbeitungsadapter und einen Videoerzeugungsadapter und fügen beide demselben Text-zu-Bild-Modell hinzu. Anschließend führen wir zur Ausrichtung der Adapter auf die Videobearbeitung ein neues unüberwachtes Destillationsverfahren ein, die faktorisierte Diffusionsdestillation. Dieses Verfahren destilliert Wissen aus einem oder mehreren Lehrern gleichzeitig, ohne überwachte Daten. Wir nutzen dieses Verfahren, um EVE beizubringen, Videos zu bearbeiten, indem wir Wissen sowohl zur präzisen Bearbeitung jedes einzelnen Frames aus dem Bildbearbeitungsadapter als auch zur Sicherstellung der zeitlichen Konsistenz zwischen den bearbeiteten Frames mithilfe des Videoerzeugungsadapters gemeinsam destillieren. Schließlich, um das Potenzial unseres Ansatzes bei der Erschließung weiterer Fähigkeiten zu demonstrieren, richten wir zusätzliche Kombinationen von Adaptern aus.
English
We introduce Emu Video Edit (EVE), a model that establishes a new
state-of-the art in video editing without relying on any supervised video
editing data. To develop EVE we separately train an image editing adapter and a
video generation adapter, and attach both to the same text-to-image model.
Then, to align the adapters towards video editing we introduce a new
unsupervised distillation procedure, Factorized Diffusion Distillation. This
procedure distills knowledge from one or more teachers simultaneously, without
any supervised data. We utilize this procedure to teach EVE to edit videos by
jointly distilling knowledge to (i) precisely edit each individual frame from
the image editing adapter, and (ii) ensure temporal consistency among the
edited frames using the video generation adapter. Finally, to demonstrate the
potential of our approach in unlocking other capabilities, we align additional
combinations of adaptersSummary
AI-Generated Summary