ChatPaper.aiChatPaper

VidEdit: Пространственно осознанное редактирование видео на основе текста с использованием метода zero-shot

VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing

June 14, 2023
Авторы: Paul Couairon, Clément Rambour, Jean-Emmanuel Haugeard, Nicolas Thome
cs.AI

Аннотация

В последнее время диффузионные генеративные модели достигли значительных успехов в создании и редактировании изображений. Однако их применение для редактирования видео по-прежнему сталкивается с серьезными ограничениями. В данной статье представлен VidEdit — новый метод для редактирования видео на основе текста в режиме zero-shot, обеспечивающий высокую временную и пространственную согласованность. Во-первых, мы предлагаем комбинировать атласные и предобученные диффузионные модели для генерации изображений из текста, что позволяет реализовать эффективный метод редактирования без необходимости обучения, изначально обеспечивающий временную плавность. Во-вторых, мы используем готовые панорамные сегментаторы вместе с детекторами краев и адаптируем их для условного редактирования атласов на основе диффузии. Это обеспечивает точный пространственный контроль над целевыми областями при строгом сохранении структуры исходного видео. Количественные и качественные эксперименты показывают, что VidEdit превосходит современные методы на наборе данных DAVIS по показателям семантической точности, сохранения изображения и временной согласованности. В рамках данного фреймворка обработка одного видео занимает всего около одной минуты, а также возможно создание нескольких совместимых редакций на основе единственного текстового запроса. Веб-страница проекта доступна по адресу https://videdit.github.io.
English
Recently, diffusion-based generative models have achieved remarkable success for image generation and edition. However, their use for video editing still faces important limitations. This paper introduces VidEdit, a novel method for zero-shot text-based video editing ensuring strong temporal and spatial consistency. Firstly, we propose to combine atlas-based and pre-trained text-to-image diffusion models to provide a training-free and efficient editing method, which by design fulfills temporal smoothness. Secondly, we leverage off-the-shelf panoptic segmenters along with edge detectors and adapt their use for conditioned diffusion-based atlas editing. This ensures a fine spatial control on targeted regions while strictly preserving the structure of the original video. Quantitative and qualitative experiments show that VidEdit outperforms state-of-the-art methods on DAVIS dataset, regarding semantic faithfulness, image preservation, and temporal consistency metrics. With this framework, processing a single video only takes approximately one minute, and it can generate multiple compatible edits based on a unique text prompt. Project web-page at https://videdit.github.io
PDF61December 15, 2024