인수분해 확산 증류를 통한 비디오 편집
Video Editing via Factorized Diffusion Distillation
March 14, 2024
저자: Uriel Singer, Amit Zohar, Yuval Kirstain, Shelly Sheynin, Adam Polyak, Devi Parikh, Yaniv Taigman
cs.AI
초록
우리는 감독된 비디오 편집 데이터에 의존하지 않고도 비디오 편집 분야에서 새로운 최첨단 기술을 확립한 모델인 Emu Video Edit(EVE)를 소개합니다. EVE를 개발하기 위해 우리는 이미지 편집 어댑터와 비디오 생성 어댑터를 별도로 학습시킨 후, 이를 동일한 텍스트-이미지 모델에 연결했습니다. 그런 다음, 이러한 어댑터들을 비디오 편집에 맞추기 위해 새로운 비지도 증류 절차인 Factorized Diffusion Distillation을 도입했습니다. 이 절차는 감독된 데이터 없이 하나 이상의 교사 모델로부터 동시에 지식을 증류합니다. 우리는 이 절차를 활용하여 EVE가 (i) 이미지 편집 어댑터를 통해 각 프레임을 정확하게 편집하고, (ii) 비디오 생성 어댑터를 사용하여 편집된 프레임들 간의 시간적 일관성을 보장하도록 지식을 공동으로 증류했습니다. 마지막으로, 우리의 접근 방식이 다른 기능을 해제할 수 있는 잠재력을 입증하기 위해, 추가적인 어댑터 조합들을 정렬했습니다.
English
We introduce Emu Video Edit (EVE), a model that establishes a new
state-of-the art in video editing without relying on any supervised video
editing data. To develop EVE we separately train an image editing adapter and a
video generation adapter, and attach both to the same text-to-image model.
Then, to align the adapters towards video editing we introduce a new
unsupervised distillation procedure, Factorized Diffusion Distillation. This
procedure distills knowledge from one or more teachers simultaneously, without
any supervised data. We utilize this procedure to teach EVE to edit videos by
jointly distilling knowledge to (i) precisely edit each individual frame from
the image editing adapter, and (ii) ensure temporal consistency among the
edited frames using the video generation adapter. Finally, to demonstrate the
potential of our approach in unlocking other capabilities, we align additional
combinations of adaptersSummary
AI-Generated Summary