ChatPaper.aiChatPaper

VACE: Creazione e Modifica Video Tutto-in-Uno

VACE: All-in-One Video Creation and Editing

March 10, 2025
Autori: Zeyinzi Jiang, Zhen Han, Chaojie Mao, Jingfeng Zhang, Yulin Pan, Yu Liu
cs.AI

Abstract

Il Diffusion Transformer ha dimostrato una potente capacità e scalabilità nella generazione di immagini e video di alta qualità. Il perseguimento dell'unificazione tra compiti di generazione e editing ha portato a progressi significativi nel campo della creazione di contenuti visivi. Tuttavia, a causa delle intrinseche esigenze di coerenza sia nelle dinamiche temporali che spaziali, raggiungere un approccio unificato per la sintesi video rimane una sfida. Introduciamo VACE, che consente agli utenti di eseguire compiti video all'interno di un framework All-in-one per la Creazione e l'Editing. Questi compiti includono la generazione da riferimento a video, l'editing da video a video e l'editing da video a video con maschera. Nello specifico, integriamo efficacemente i requisiti di vari compiti organizzando gli input dei task video, come editing, riferimento e mascheramento, in un'interfaccia unificata denominata Video Condition Unit (VCU). Inoltre, utilizzando una struttura Context Adapter, iniettiamo diversi concetti di task nel modello attraverso rappresentazioni formalizzate delle dimensioni temporali e spaziali, consentendogli di gestire in modo flessibile qualsiasi compito di sintesi video. Esperimenti estensivi dimostrano che il modello unificato di VACE raggiunge prestazioni pari a modelli specifici per task in vari sottocompiti. Allo stesso tempo, abilita applicazioni diversificate attraverso combinazioni versatili di task. Pagina del progetto: https://ali-vilab.github.io/VACE-Page/.
English
Diffusion Transformer has demonstrated powerful capability and scalability in generating high-quality images and videos. Further pursuing the unification of generation and editing tasks has yielded significant progress in the domain of image content creation. However, due to the intrinsic demands for consistency across both temporal and spatial dynamics, achieving a unified approach for video synthesis remains challenging. We introduce VACE, which enables users to perform Video tasks within an All-in-one framework for Creation and Editing. These tasks include reference-to-video generation, video-to-video editing, and masked video-to-video editing. Specifically, we effectively integrate the requirements of various tasks by organizing video task inputs, such as editing, reference, and masking, into a unified interface referred to as the Video Condition Unit (VCU). Furthermore, by utilizing a Context Adapter structure, we inject different task concepts into the model using formalized representations of temporal and spatial dimensions, allowing it to handle arbitrary video synthesis tasks flexibly. Extensive experiments demonstrate that the unified model of VACE achieves performance on par with task-specific models across various subtasks. Simultaneously, it enables diverse applications through versatile task combinations. Project page: https://ali-vilab.github.io/VACE-Page/.

Summary

AI-Generated Summary

PDF475March 11, 2025