AnyV2V: 모든 비디오-투-비디오 편집 작업을 위한 플러그 앤 플레이 프레임워크
AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks
March 21, 2024
저자: Max Ku, Cong Wei, Weiming Ren, Huan Yang, Wenhu Chen
cs.AI
초록
비디오 간 편집은 소스 비디오와 추가적인 제어 요소(예: 텍스트 프롬프트, 주제, 스타일 등)를 함께 사용하여 소스 비디오와 제공된 제어 요소에 맞는 새로운 비디오를 생성하는 과정을 포함합니다. 기존의 방법들은 특정 편집 유형에 제한되어 있어 다양한 사용자 요구를 충족시키는 데 한계가 있었습니다. 본 논문에서는 AnyV2V라는 새로운 학습 없이도 사용 가능한 프레임워크를 소개합니다. 이 프레임워크는 비디오 편집을 두 가지 주요 단계로 단순화합니다: (1) 기존의 이미지 편집 모델(예: InstructPix2Pix, InstantID 등)을 사용하여 첫 번째 프레임을 수정하고, (2) 기존의 이미지-투-비디오 생성 모델(예: I2VGen-XL)을 사용하여 DDIM 역변환 및 특징 주입을 수행합니다. 첫 번째 단계에서 AnyV2V는 기존의 모든 이미지 편집 도구를 활용할 수 있어 다양한 비디오 편집 작업을 지원합니다. 전통적인 프롬프트 기반 편집 방법을 넘어, AnyV2V는 참조 기반 스타일 전이, 주제 기반 편집, 아이덴티티 조작과 같은 새로운 비디오 편집 작업도 지원하며, 이는 이전 방법들로는 달성할 수 없었던 기능들입니다. 두 번째 단계에서 AnyV2V는 기존의 이미지-투-비디오 모델을 활용하여 DDIM 역변환 및 중간 특징 주입을 수행함으로써 소스 비디오와의 외관 및 동작 일관성을 유지합니다. 프롬프트 기반 편집에서 AnyV2V는 이전 최고의 접근법보다 프롬프트 정렬에서 35%, 인간 선호도에서 25% 더 우수한 성능을 보였습니다. 또한 세 가지 새로운 작업에서도 AnyV2V는 높은 성공률을 달성했습니다. 우리는 AnyV2V가 빠르게 발전하는 이미지 편집 방법들을 원활하게 통합할 수 있는 능력 덕분에 계속해서 성장할 것이라고 믿습니다. 이러한 호환성은 AnyV2V가 다양한 사용자 요구를 충족시키기 위해 그 다양성을 증가시키는 데 도움을 줄 것입니다.
English
Video-to-video editing involves editing a source video along with additional
control (such as text prompts, subjects, or styles) to generate a new video
that aligns with the source video and the provided control. Traditional methods
have been constrained to certain editing types, limiting their ability to meet
the wide range of user demands. In this paper, we introduce AnyV2V, a novel
training-free framework designed to simplify video editing into two primary
steps: (1) employing an off-the-shelf image editing model (e.g.
InstructPix2Pix, InstantID, etc) to modify the first frame, (2) utilizing an
existing image-to-video generation model (e.g. I2VGen-XL) for DDIM inversion
and feature injection. In the first stage, AnyV2V can plug in any existing
image editing tools to support an extensive array of video editing tasks.
Beyond the traditional prompt-based editing methods, AnyV2V also can support
novel video editing tasks, including reference-based style transfer,
subject-driven editing, and identity manipulation, which were unattainable by
previous methods. In the second stage, AnyV2V can plug in any existing
image-to-video models to perform DDIM inversion and intermediate feature
injection to maintain the appearance and motion consistency with the source
video. On the prompt-based editing, we show that AnyV2V can outperform the
previous best approach by 35\% on prompt alignment, and 25\% on human
preference. On the three novel tasks, we show that AnyV2V also achieves a high
success rate. We believe AnyV2V will continue to thrive due to its ability to
seamlessly integrate the fast-evolving image editing methods. Such
compatibility can help AnyV2V to increase its versatility to cater to diverse
user demands.Summary
AI-Generated Summary