VACE: Универсальное решение для создания и редактирования видео
VACE: All-in-One Video Creation and Editing
March 10, 2025
Авторы: Zeyinzi Jiang, Zhen Han, Chaojie Mao, Jingfeng Zhang, Yulin Pan, Yu Liu
cs.AI
Аннотация
Diffusion Transformer продемонстрировал мощные возможности и масштабируемость в генерации высококачественных изображений и видео. Дальнейшее стремление к унификации задач генерации и редактирования привело к значительному прогрессу в области создания контента изображений. Однако из-за внутренних требований к согласованности как временных, так и пространственных динамик, достижение унифицированного подхода к синтезу видео остается сложной задачей. Мы представляем VACE, который позволяет пользователям выполнять задачи, связанные с видео, в рамках универсальной платформы для создания и редактирования. Эти задачи включают генерацию видео на основе референса, редактирование видео и редактирование видео с использованием масок. В частности, мы эффективно интегрируем требования различных задач, организуя входные данные для видео-задач, такие как редактирование, референс и маскирование, в унифицированный интерфейс, называемый Video Condition Unit (VCU). Кроме того, используя структуру Context Adapter, мы внедряем различные концепции задач в модель с помощью формализованных представлений временных и пространственных измерений, что позволяет ей гибко справляться с произвольными задачами синтеза видео. Многочисленные эксперименты демонстрируют, что унифицированная модель VACE достигает производительности, сопоставимой с моделями, специализированными на конкретных задачах, в различных подзадачах. Одновременно она позволяет реализовывать разнообразные приложения благодаря универсальным комбинациям задач. Страница проекта: https://ali-vilab.github.io/VACE-Page/.
English
Diffusion Transformer has demonstrated powerful capability and scalability in
generating high-quality images and videos. Further pursuing the unification of
generation and editing tasks has yielded significant progress in the domain of
image content creation. However, due to the intrinsic demands for consistency
across both temporal and spatial dynamics, achieving a unified approach for
video synthesis remains challenging. We introduce VACE, which enables users to
perform Video tasks within an All-in-one framework for Creation and Editing.
These tasks include reference-to-video generation, video-to-video editing, and
masked video-to-video editing. Specifically, we effectively integrate the
requirements of various tasks by organizing video task inputs, such as editing,
reference, and masking, into a unified interface referred to as the Video
Condition Unit (VCU). Furthermore, by utilizing a Context Adapter structure, we
inject different task concepts into the model using formalized representations
of temporal and spatial dimensions, allowing it to handle arbitrary video
synthesis tasks flexibly. Extensive experiments demonstrate that the unified
model of VACE achieves performance on par with task-specific models across
various subtasks. Simultaneously, it enables diverse applications through
versatile task combinations. Project page:
https://ali-vilab.github.io/VACE-Page/.Summary
AI-Generated Summary