VidEdit: Пространственно осознанное редактирование видео на основе текста с использованием метода zero-shot
VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing
June 14, 2023
Авторы: Paul Couairon, Clément Rambour, Jean-Emmanuel Haugeard, Nicolas Thome
cs.AI
Аннотация
В последнее время диффузионные генеративные модели достигли значительных успехов в создании и редактировании изображений. Однако их применение для редактирования видео по-прежнему сталкивается с серьезными ограничениями. В данной статье представлен VidEdit — новый метод для редактирования видео на основе текста в режиме zero-shot, обеспечивающий высокую временную и пространственную согласованность. Во-первых, мы предлагаем комбинировать атласные и предобученные диффузионные модели для генерации изображений из текста, что позволяет реализовать эффективный метод редактирования без необходимости обучения, изначально обеспечивающий временную плавность. Во-вторых, мы используем готовые панорамные сегментаторы вместе с детекторами краев и адаптируем их для условного редактирования атласов на основе диффузии. Это обеспечивает точный пространственный контроль над целевыми областями при строгом сохранении структуры исходного видео. Количественные и качественные эксперименты показывают, что VidEdit превосходит современные методы на наборе данных DAVIS по показателям семантической точности, сохранения изображения и временной согласованности. В рамках данного фреймворка обработка одного видео занимает всего около одной минуты, а также возможно создание нескольких совместимых редакций на основе единственного текстового запроса. Веб-страница проекта доступна по адресу https://videdit.github.io.
English
Recently, diffusion-based generative models have achieved remarkable success
for image generation and edition. However, their use for video editing still
faces important limitations. This paper introduces VidEdit, a novel method for
zero-shot text-based video editing ensuring strong temporal and spatial
consistency. Firstly, we propose to combine atlas-based and pre-trained
text-to-image diffusion models to provide a training-free and efficient editing
method, which by design fulfills temporal smoothness. Secondly, we leverage
off-the-shelf panoptic segmenters along with edge detectors and adapt their use
for conditioned diffusion-based atlas editing. This ensures a fine spatial
control on targeted regions while strictly preserving the structure of the
original video. Quantitative and qualitative experiments show that VidEdit
outperforms state-of-the-art methods on DAVIS dataset, regarding semantic
faithfulness, image preservation, and temporal consistency metrics. With this
framework, processing a single video only takes approximately one minute, and
it can generate multiple compatible edits based on a unique text prompt.
Project web-page at https://videdit.github.io