ChatPaper.aiChatPaper

VACE: Creación y Edición de Video Todo en Uno

VACE: All-in-One Video Creation and Editing

March 10, 2025
Autores: Zeyinzi Jiang, Zhen Han, Chaojie Mao, Jingfeng Zhang, Yulin Pan, Yu Liu
cs.AI

Resumen

El Transformer de Difusión ha demostrado una capacidad y escalabilidad potentes en la generación de imágenes y videos de alta calidad. Avanzar hacia la unificación de tareas de generación y edición ha logrado un progreso significativo en el ámbito de la creación de contenido visual. Sin embargo, debido a las demandas intrínsecas de consistencia tanto en las dinámicas temporales como espaciales, lograr un enfoque unificado para la síntesis de videos sigue siendo un desafío. Presentamos VACE, que permite a los usuarios realizar tareas de video dentro de un marco integral para la Creación y Edición. Estas tareas incluyen la generación de video a partir de referencias, la edición de video a video y la edición de video enmascarado. Específicamente, integramos eficazmente los requisitos de diversas tareas organizando las entradas de tareas de video, como edición, referencia y enmascaramiento, en una interfaz unificada denominada Unidad de Condición de Video (VCU). Además, al utilizar una estructura de Adaptador de Contexto, inyectamos diferentes conceptos de tareas en el modelo mediante representaciones formalizadas de dimensiones temporales y espaciales, permitiéndole manejar tareas arbitrarias de síntesis de video de manera flexible. Experimentos exhaustivos demuestran que el modelo unificado de VACE logra un rendimiento comparable con modelos específicos para tareas en varios subtareas. Simultáneamente, habilita diversas aplicaciones a través de combinaciones versátiles de tareas. Página del proyecto: https://ali-vilab.github.io/VACE-Page/.
English
Diffusion Transformer has demonstrated powerful capability and scalability in generating high-quality images and videos. Further pursuing the unification of generation and editing tasks has yielded significant progress in the domain of image content creation. However, due to the intrinsic demands for consistency across both temporal and spatial dynamics, achieving a unified approach for video synthesis remains challenging. We introduce VACE, which enables users to perform Video tasks within an All-in-one framework for Creation and Editing. These tasks include reference-to-video generation, video-to-video editing, and masked video-to-video editing. Specifically, we effectively integrate the requirements of various tasks by organizing video task inputs, such as editing, reference, and masking, into a unified interface referred to as the Video Condition Unit (VCU). Furthermore, by utilizing a Context Adapter structure, we inject different task concepts into the model using formalized representations of temporal and spatial dimensions, allowing it to handle arbitrary video synthesis tasks flexibly. Extensive experiments demonstrate that the unified model of VACE achieves performance on par with task-specific models across various subtasks. Simultaneously, it enables diverse applications through versatile task combinations. Project page: https://ali-vilab.github.io/VACE-Page/.

Summary

AI-Generated Summary

PDF475March 11, 2025