Редактирование видео с помощью дистилляции факторизованной диффузии
Video Editing via Factorized Diffusion Distillation
March 14, 2024
Авторы: Uriel Singer, Amit Zohar, Yuval Kirstain, Shelly Sheynin, Adam Polyak, Devi Parikh, Yaniv Taigman
cs.AI
Аннотация
Мы представляем Emu Video Edit (EVE), модель, которая устанавливает новый уровень в области видеомонтажа без использования каких-либо данных обучения видеомонтажу. Для разработки EVE мы отдельно обучаем адаптер редактирования изображений и адаптер генерации видео, и присоединяем оба к одной и той же модели текст-к-изображению. Затем, чтобы выровнять адаптеры в направлении видеомонтажа, мы представляем новую процедуру надзорного уплотнения, Факторизованную Диффузионную Уплотнение. Эта процедура уплотняет знания одного или нескольких учителей одновременно, без каких-либо данных обучения. Мы используем эту процедуру, чтобы обучить EVE редактировать видео путем совместного уплотнения знаний для (i) точного редактирования каждого отдельного кадра из адаптера редактирования изображений, и (ii) обеспечения временной согласованности между отредактированными кадрами с использованием адаптера генерации видео. Наконец, чтобы продемонстрировать потенциал нашего подхода в разблокировке других возможностей, мы выравниваем дополнительные комбинации адаптеров.
English
We introduce Emu Video Edit (EVE), a model that establishes a new
state-of-the art in video editing without relying on any supervised video
editing data. To develop EVE we separately train an image editing adapter and a
video generation adapter, and attach both to the same text-to-image model.
Then, to align the adapters towards video editing we introduce a new
unsupervised distillation procedure, Factorized Diffusion Distillation. This
procedure distills knowledge from one or more teachers simultaneously, without
any supervised data. We utilize this procedure to teach EVE to edit videos by
jointly distilling knowledge to (i) precisely edit each individual frame from
the image editing adapter, and (ii) ensure temporal consistency among the
edited frames using the video generation adapter. Finally, to demonstrate the
potential of our approach in unlocking other capabilities, we align additional
combinations of adaptersSummary
AI-Generated Summary