AnyV2V: Готовый к использованию фреймворк для любых задач по редактированию видео в видео.
AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks
March 21, 2024
Авторы: Max Ku, Cong Wei, Weiming Ren, Huan Yang, Wenhu Chen
cs.AI
Аннотация
Редактирование видео-на-видео включает в себя редактирование исходного видео вместе с дополнительным управлением (таким как текстовые подсказки, объекты или стили) для создания нового видео, соответствующего исходному видео и предоставленному управлению. Традиционные методы были ограничены определенными типами редактирования, что снижало их способность удовлетворять широкий спектр потребностей пользователей. В данной статье мы представляем AnyV2V, новую рамочную систему без обучения, разработанную для упрощения редактирования видео на два основных этапа: (1) использование готовой модели редактирования изображений (например, InstructPix2Pix, InstantID и т. д.) для изменения первого кадра, (2) использование существующей модели генерации изображений в видео (например, I2VGen-XL) для инверсии DDIM и внедрения признаков. На первом этапе AnyV2V может подключать любые существующие инструменты редактирования изображений для поддержки широкого спектра задач по редактированию видео. Помимо традиционных методов редактирования на основе подсказок, AnyV2V также может поддерживать новые задачи редактирования видео, включая передачу стиля на основе ссылок, редактирование по объектам и манипуляцию идентичностью, которые были недостижимы ранее. На втором этапе AnyV2V может подключать любые существующие модели изображений в видео для выполнения инверсии DDIM и внедрения промежуточных признаков для сохранения согласованности внешнего вида и движения с исходным видео. По редактированию на основе подсказок мы показываем, что AnyV2V может превзойти предыдущий лучший подход на 35\% по выравниванию подсказок и на 25\% по предпочтениям человека. По трем новым задачам мы показываем, что AnyV2V также достигает высокой успешности. Мы считаем, что AnyV2V будет продолжать развиваться благодаря его способности бесшовно интегрировать быстро развивающиеся методы редактирования изображений. Такая совместимость может помочь AnyV2V увеличить свою универсальность для удовлетворения разнообразных потребностей пользователей.
English
Video-to-video editing involves editing a source video along with additional
control (such as text prompts, subjects, or styles) to generate a new video
that aligns with the source video and the provided control. Traditional methods
have been constrained to certain editing types, limiting their ability to meet
the wide range of user demands. In this paper, we introduce AnyV2V, a novel
training-free framework designed to simplify video editing into two primary
steps: (1) employing an off-the-shelf image editing model (e.g.
InstructPix2Pix, InstantID, etc) to modify the first frame, (2) utilizing an
existing image-to-video generation model (e.g. I2VGen-XL) for DDIM inversion
and feature injection. In the first stage, AnyV2V can plug in any existing
image editing tools to support an extensive array of video editing tasks.
Beyond the traditional prompt-based editing methods, AnyV2V also can support
novel video editing tasks, including reference-based style transfer,
subject-driven editing, and identity manipulation, which were unattainable by
previous methods. In the second stage, AnyV2V can plug in any existing
image-to-video models to perform DDIM inversion and intermediate feature
injection to maintain the appearance and motion consistency with the source
video. On the prompt-based editing, we show that AnyV2V can outperform the
previous best approach by 35\% on prompt alignment, and 25\% on human
preference. On the three novel tasks, we show that AnyV2V also achieves a high
success rate. We believe AnyV2V will continue to thrive due to its ability to
seamlessly integrate the fast-evolving image editing methods. Such
compatibility can help AnyV2V to increase its versatility to cater to diverse
user demands.Summary
AI-Generated Summary