TokenFlow: Согласованные признаки диффузии для согласованного редактирования видео
TokenFlow: Consistent Diffusion Features for Consistent Video Editing
July 19, 2023
Авторы: Michal Geyer, Omer Bar-Tal, Shai Bagon, Tali Dekel
cs.AI
Аннотация
Революция генеративного искусственного интеллекта недавно распространилась на видео. Тем не менее, современные модели для работы с видео всё ещё отстают от моделей для изображений с точки зрения визуального качества и контроля пользователя над генерируемым контентом. В данной работе мы представляем фреймворк, который использует возможности диффузионной модели для преобразования текста в изображение для задачи текстового редактирования видео. В частности, при наличии исходного видео и целевого текстового запроса наш метод генерирует высококачественное видео, соответствующее целевому тексту, сохраняя при этом пространственную композицию и движение исходного видео. Наш метод основан на ключевом наблюдении, что согласованность в отредактированном видео может быть достигнута за счёт обеспечения согласованности в пространстве диффузионных признаков. Мы достигаем этого путём явного распространения диффузионных признаков на основе межкадровых соответствий, которые легко доступны в модели. Таким образом, наш фреймворк не требует обучения или дообучения и может работать в сочетании с любым готовым методом редактирования текста в изображение. Мы демонстрируем передовые результаты редактирования на различных реальных видео. Веб-страница: https://diffusion-tokenflow.github.io/
English
The generative AI revolution has recently expanded to videos. Nevertheless,
current state-of-the-art video models are still lagging behind image models in
terms of visual quality and user control over the generated content. In this
work, we present a framework that harnesses the power of a text-to-image
diffusion model for the task of text-driven video editing. Specifically, given
a source video and a target text-prompt, our method generates a high-quality
video that adheres to the target text, while preserving the spatial layout and
motion of the input video. Our method is based on a key observation that
consistency in the edited video can be obtained by enforcing consistency in the
diffusion feature space. We achieve this by explicitly propagating diffusion
features based on inter-frame correspondences, readily available in the model.
Thus, our framework does not require any training or fine-tuning, and can work
in conjunction with any off-the-shelf text-to-image editing method. We
demonstrate state-of-the-art editing results on a variety of real-world videos.
Webpage: https://diffusion-tokenflow.github.io/