VACE:オールインワン動画制作・編集ツール
VACE: All-in-One Video Creation and Editing
March 10, 2025
著者: Zeyinzi Jiang, Zhen Han, Chaojie Mao, Jingfeng Zhang, Yulin Pan, Yu Liu
cs.AI
要旨
Diffusion Transformerは、高品質な画像や動画の生成において強力な能力と拡張性を実証してきました。生成と編集タスクの統一をさらに追求することで、画像コンテンツ作成の分野で大きな進展が見られました。しかし、時間的および空間的ダイナミクスにわたる一貫性の本質的な要求のため、動画合成のための統一的なアプローチの実現は依然として困難です。本論文では、VACEを紹介します。VACEは、ユーザーが動画タスクをCreationとEditingのオールインワンフレームワーク内で実行できるようにします。これらのタスクには、参照から動画生成、動画から動画編集、およびマスクされた動画から動画編集が含まれます。具体的には、編集、参照、マスキングなどの動画タスク入力をVideo Condition Unit(VCU)と呼ばれる統一インターフェースに整理することで、さまざまなタスクの要件を効果的に統合します。さらに、Context Adapter構造を利用して、時間的および空間的次元の形式化された表現を使用して異なるタスク概念をモデルに注入し、任意の動画合成タスクを柔軟に処理できるようにします。大規模な実験により、VACEの統一モデルが、さまざまなサブタスクにおいてタスク固有のモデルと同等の性能を達成することが実証されています。同時に、多様なタスクの組み合わせを通じて多様なアプリケーションを可能にします。プロジェクトページ: https://ali-vilab.github.io/VACE-Page/
English
Diffusion Transformer has demonstrated powerful capability and scalability in
generating high-quality images and videos. Further pursuing the unification of
generation and editing tasks has yielded significant progress in the domain of
image content creation. However, due to the intrinsic demands for consistency
across both temporal and spatial dynamics, achieving a unified approach for
video synthesis remains challenging. We introduce VACE, which enables users to
perform Video tasks within an All-in-one framework for Creation and Editing.
These tasks include reference-to-video generation, video-to-video editing, and
masked video-to-video editing. Specifically, we effectively integrate the
requirements of various tasks by organizing video task inputs, such as editing,
reference, and masking, into a unified interface referred to as the Video
Condition Unit (VCU). Furthermore, by utilizing a Context Adapter structure, we
inject different task concepts into the model using formalized representations
of temporal and spatial dimensions, allowing it to handle arbitrary video
synthesis tasks flexibly. Extensive experiments demonstrate that the unified
model of VACE achieves performance on par with task-specific models across
various subtasks. Simultaneously, it enables diverse applications through
versatile task combinations. Project page:
https://ali-vilab.github.io/VACE-Page/.Summary
AI-Generated Summary