StableV2V: ビデオ間編集における形状の一貫性を安定化する
StableV2V: Stablizing Shape Consistency in Video-to-Video Editing
November 17, 2024
著者: Chang Liu, Rui Li, Kaidong Zhang, Yunwei Lan, Dong Liu
cs.AI
要旨
最近の生成AIの進歩は、コンテンツの作成と編集を大幅に促進し、主流の研究はこの興奮を持続可能な進歩に拡張し、さらにビデオ編集にまで進展させています。これらの研究は、主にソースビデオから固有の動きパターンを編集されたビデオに転送し、結果として、ユーザープロンプトとの一貫性に劣る結果がしばしば観察されます。これは、提供された動きと編集されたコンテンツとの特定の整合性の欠如によるものです。この制限に対処するために、本論文では、形状一貫性のあるビデオ編集手法であるStableV2Vを提案します。当該手法は、編集全体の手順をいくつかの連続した手順に分解し、最初のビデオフレームを編集し、次に提供された動きとユーザープロンプトとの整合性を確立し、最終的にそのような整合性に基づいて他のすべてのフレームに編集されたコンテンツを伝播させます。さらに、さまざまな種類のプロンプトや難易度を考慮したビデオ編集の包括的評価のために、DAVIS-Editというテストベンチマークを編纂します。実験結果と分析は、既存の最先端研究と比較して、当該手法の優れた性能、視覚的一貫性、および推論効率を示しています。
English
Recent advancements of generative AI have significantly promoted content
creation and editing, where prevailing studies further extend this exciting
progress to video editing. In doing so, these studies mainly transfer the
inherent motion patterns from the source videos to the edited ones, where
results with inferior consistency to user prompts are often observed, due to
the lack of particular alignments between the delivered motions and edited
contents. To address this limitation, we present a shape-consistent video
editing method, namely StableV2V, in this paper. Our method decomposes the
entire editing pipeline into several sequential procedures, where it edits the
first video frame, then establishes an alignment between the delivered motions
and user prompts, and eventually propagates the edited contents to all other
frames based on such alignment. Furthermore, we curate a testing benchmark,
namely DAVIS-Edit, for a comprehensive evaluation of video editing, considering
various types of prompts and difficulties. Experimental results and analyses
illustrate the outperforming performance, visual consistency, and inference
efficiency of our method compared to existing state-of-the-art studies.Summary
AI-Generated Summary