ChatPaper.aiChatPaper

VACE: Criação e Edição de Vídeo Tudo-em-Um

VACE: All-in-One Video Creation and Editing

March 10, 2025
Autores: Zeyinzi Jiang, Zhen Han, Chaojie Mao, Jingfeng Zhang, Yulin Pan, Yu Liu
cs.AI

Resumo

O Diffusion Transformer demonstrou capacidade e escalabilidade impressionantes na geração de imagens e vídeos de alta qualidade. A busca contínua pela unificação de tarefas de geração e edição tem gerado avanços significativos no domínio da criação de conteúdo visual. No entanto, devido às demandas intrínsecas de consistência tanto nas dinâmicas temporais quanto espaciais, alcançar uma abordagem unificada para a síntese de vídeo permanece um desafio. Apresentamos o VACE, que permite aos usuários realizar tarefas de vídeo em uma estrutura All-in-one para Criação e Edição. Essas tarefas incluem geração de vídeo a partir de referência, edição de vídeo para vídeo e edição de vídeo com máscara. Especificamente, integramos de forma eficaz os requisitos de várias tarefas organizando as entradas de tarefas de vídeo, como edição, referência e máscara, em uma interface unificada denominada Unidade de Condição de Vídeo (VCU). Além disso, ao utilizar uma estrutura de Context Adapter, injetamos diferentes conceitos de tarefas no modelo por meio de representações formalizadas das dimensões temporais e espaciais, permitindo que ele lide com tarefas arbitrárias de síntese de vídeo de maneira flexível. Experimentos extensivos demonstram que o modelo unificado do VACE alcança desempenho equivalente a modelos específicos para tarefas em várias subtarefas. Simultaneamente, ele possibilita diversas aplicações por meio de combinações versáteis de tarefas. Página do projeto: https://ali-vilab.github.io/VACE-Page/.
English
Diffusion Transformer has demonstrated powerful capability and scalability in generating high-quality images and videos. Further pursuing the unification of generation and editing tasks has yielded significant progress in the domain of image content creation. However, due to the intrinsic demands for consistency across both temporal and spatial dynamics, achieving a unified approach for video synthesis remains challenging. We introduce VACE, which enables users to perform Video tasks within an All-in-one framework for Creation and Editing. These tasks include reference-to-video generation, video-to-video editing, and masked video-to-video editing. Specifically, we effectively integrate the requirements of various tasks by organizing video task inputs, such as editing, reference, and masking, into a unified interface referred to as the Video Condition Unit (VCU). Furthermore, by utilizing a Context Adapter structure, we inject different task concepts into the model using formalized representations of temporal and spatial dimensions, allowing it to handle arbitrary video synthesis tasks flexibly. Extensive experiments demonstrate that the unified model of VACE achieves performance on par with task-specific models across various subtasks. Simultaneously, it enables diverse applications through versatile task combinations. Project page: https://ali-vilab.github.io/VACE-Page/.

Summary

AI-Generated Summary

PDF475March 11, 2025