VACE : Solution intégrée de création et d'édition vidéo
VACE: All-in-One Video Creation and Editing
March 10, 2025
Auteurs: Zeyinzi Jiang, Zhen Han, Chaojie Mao, Jingfeng Zhang, Yulin Pan, Yu Liu
cs.AI
Résumé
Le Transformer de Diffusion a démontré une capacité et une scalabilité puissantes dans la génération d'images et de vidéos de haute qualité. La poursuite de l'unification des tâches de génération et d'édition a permis des progrès significatifs dans le domaine de la création de contenu visuel. Cependant, en raison des exigences intrinsèques de cohérence à la fois temporelle et spatiale, la réalisation d'une approche unifiée pour la synthèse vidéo reste un défi. Nous présentons VACE, qui permet aux utilisateurs d'exécuter des tâches vidéo dans un cadre tout-en-un pour la création et l'édition. Ces tâches incluent la génération de vidéos à partir de références, l'édition de vidéo à vidéo, et l'édition de vidéo masquée. Plus précisément, nous intégrons efficacement les exigences de diverses tâches en organisant les entrées des tâches vidéo, telles que l'édition, la référence et le masquage, dans une interface unifiée appelée Unité de Condition Vidéo (VCU). De plus, en utilisant une structure d'Adaptateur de Contexte, nous injectons différents concepts de tâches dans le modèle à l'aide de représentations formalisées des dimensions temporelles et spatiales, lui permettant de gérer de manière flexible des tâches de synthèse vidéo arbitraires. Des expériences approfondies démontrent que le modèle unifié de VACE atteint des performances comparables à celles des modèles spécifiques à chaque tâche à travers diverses sous-tâches. Simultanément, il permet des applications variées grâce à des combinaisons de tâches polyvalentes. Page du projet : https://ali-vilab.github.io/VACE-Page/.
English
Diffusion Transformer has demonstrated powerful capability and scalability in
generating high-quality images and videos. Further pursuing the unification of
generation and editing tasks has yielded significant progress in the domain of
image content creation. However, due to the intrinsic demands for consistency
across both temporal and spatial dynamics, achieving a unified approach for
video synthesis remains challenging. We introduce VACE, which enables users to
perform Video tasks within an All-in-one framework for Creation and Editing.
These tasks include reference-to-video generation, video-to-video editing, and
masked video-to-video editing. Specifically, we effectively integrate the
requirements of various tasks by organizing video task inputs, such as editing,
reference, and masking, into a unified interface referred to as the Video
Condition Unit (VCU). Furthermore, by utilizing a Context Adapter structure, we
inject different task concepts into the model using formalized representations
of temporal and spatial dimensions, allowing it to handle arbitrary video
synthesis tasks flexibly. Extensive experiments demonstrate that the unified
model of VACE achieves performance on par with task-specific models across
various subtasks. Simultaneously, it enables diverse applications through
versatile task combinations. Project page:
https://ali-vilab.github.io/VACE-Page/.