StableV2V: Обеспечение стабильности согласованности формы при редактировании видео-на-видео

Аннотация

Недавние достижения в области генеративного искусственного интеллекта значительно способствовали созданию и редактированию контента, где ведущие исследования дополнительно расширяют этот захватывающий прогресс на видеоредактирование. При этом эти исследования в основном передают врожденные шаблоны движения из исходных видеороликов в отредактированные, где часто наблюдаются результаты с недостаточной согласованностью с запросами пользователей из-за отсутствия конкретных соответствий между переданными движениями и отредактированным содержимым. Для преодоления этого ограничения мы представляем в данной статье метод редактирования видео с сохранением формы, названный StableV2V. Наш метод разбивает весь процесс редактирования на несколько последовательных процедур, где он редактирует первый кадр видео, затем устанавливает соответствие между переданными движениями и запросами пользователя, и в конечном итоге распространяет отредактированное содержимое на все остальные кадры на основе этого соответствия. Кроме того, мы создаем тестовую платформу, названную DAVIS-Edit, для всесторонней оценки видеоредактирования, учитывая различные типы запросов и трудности. Экспериментальные результаты и анализы иллюстрируют превосходную производительность, визуальную согласованность и эффективность вывода нашего метода по сравнению с существующими передовыми исследованиями.

English

Recent advancements of generative AI have significantly promoted content creation and editing, where prevailing studies further extend this exciting progress to video editing. In doing so, these studies mainly transfer the inherent motion patterns from the source videos to the edited ones, where results with inferior consistency to user prompts are often observed, due to the lack of particular alignments between the delivered motions and edited contents. To address this limitation, we present a shape-consistent video editing method, namely StableV2V, in this paper. Our method decomposes the entire editing pipeline into several sequential procedures, where it edits the first video frame, then establishes an alignment between the delivered motions and user prompts, and eventually propagates the edited contents to all other frames based on such alignment. Furthermore, we curate a testing benchmark, namely DAVIS-Edit, for a comprehensive evaluation of video editing, considering various types of prompts and difficulties. Experimental results and analyses illustrate the outperforming performance, visual consistency, and inference efficiency of our method compared to existing state-of-the-art studies.

StableV2V: Обеспечение стабильности согласованности формы при редактировании видео-на-видео

StableV2V: Stablizing Shape Consistency in Video-to-Video Editing

Аннотация

Support