StableV2V: Обеспечение стабильности согласованности формы при редактировании видео-на-видео
StableV2V: Stablizing Shape Consistency in Video-to-Video Editing
November 17, 2024
Авторы: Chang Liu, Rui Li, Kaidong Zhang, Yunwei Lan, Dong Liu
cs.AI
Аннотация
Недавние достижения в области генеративного искусственного интеллекта значительно способствовали созданию и редактированию контента, где ведущие исследования дополнительно расширяют этот захватывающий прогресс на видеоредактирование. При этом эти исследования в основном передают врожденные шаблоны движения из исходных видеороликов в отредактированные, где часто наблюдаются результаты с недостаточной согласованностью с запросами пользователей из-за отсутствия конкретных соответствий между переданными движениями и отредактированным содержимым. Для преодоления этого ограничения мы представляем в данной статье метод редактирования видео с сохранением формы, названный StableV2V. Наш метод разбивает весь процесс редактирования на несколько последовательных процедур, где он редактирует первый кадр видео, затем устанавливает соответствие между переданными движениями и запросами пользователя, и в конечном итоге распространяет отредактированное содержимое на все остальные кадры на основе этого соответствия. Кроме того, мы создаем тестовую платформу, названную DAVIS-Edit, для всесторонней оценки видеоредактирования, учитывая различные типы запросов и трудности. Экспериментальные результаты и анализы иллюстрируют превосходную производительность, визуальную согласованность и эффективность вывода нашего метода по сравнению с существующими передовыми исследованиями.
English
Recent advancements of generative AI have significantly promoted content
creation and editing, where prevailing studies further extend this exciting
progress to video editing. In doing so, these studies mainly transfer the
inherent motion patterns from the source videos to the edited ones, where
results with inferior consistency to user prompts are often observed, due to
the lack of particular alignments between the delivered motions and edited
contents. To address this limitation, we present a shape-consistent video
editing method, namely StableV2V, in this paper. Our method decomposes the
entire editing pipeline into several sequential procedures, where it edits the
first video frame, then establishes an alignment between the delivered motions
and user prompts, and eventually propagates the edited contents to all other
frames based on such alignment. Furthermore, we curate a testing benchmark,
namely DAVIS-Edit, for a comprehensive evaluation of video editing, considering
various types of prompts and difficulties. Experimental results and analyses
illustrate the outperforming performance, visual consistency, and inference
efficiency of our method compared to existing state-of-the-art studies.Summary
AI-Generated Summary