VACE: Универсальное решение для создания и редактирования видео

Аннотация

Diffusion Transformer продемонстрировал мощные возможности и масштабируемость в генерации высококачественных изображений и видео. Дальнейшее стремление к унификации задач генерации и редактирования привело к значительному прогрессу в области создания контента изображений. Однако из-за внутренних требований к согласованности как временных, так и пространственных динамик, достижение унифицированного подхода к синтезу видео остается сложной задачей. Мы представляем VACE, который позволяет пользователям выполнять задачи, связанные с видео, в рамках универсальной платформы для создания и редактирования. Эти задачи включают генерацию видео на основе референса, редактирование видео и редактирование видео с использованием масок. В частности, мы эффективно интегрируем требования различных задач, организуя входные данные для видео-задач, такие как редактирование, референс и маскирование, в унифицированный интерфейс, называемый Video Condition Unit (VCU). Кроме того, используя структуру Context Adapter, мы внедряем различные концепции задач в модель с помощью формализованных представлений временных и пространственных измерений, что позволяет ей гибко справляться с произвольными задачами синтеза видео. Многочисленные эксперименты демонстрируют, что унифицированная модель VACE достигает производительности, сопоставимой с моделями, специализированными на конкретных задачах, в различных подзадачах. Одновременно она позволяет реализовывать разнообразные приложения благодаря универсальным комбинациям задач. Страница проекта: https://ali-vilab.github.io/VACE-Page/.

English

Diffusion Transformer has demonstrated powerful capability and scalability in generating high-quality images and videos. Further pursuing the unification of generation and editing tasks has yielded significant progress in the domain of image content creation. However, due to the intrinsic demands for consistency across both temporal and spatial dynamics, achieving a unified approach for video synthesis remains challenging. We introduce VACE, which enables users to perform Video tasks within an All-in-one framework for Creation and Editing. These tasks include reference-to-video generation, video-to-video editing, and masked video-to-video editing. Specifically, we effectively integrate the requirements of various tasks by organizing video task inputs, such as editing, reference, and masking, into a unified interface referred to as the Video Condition Unit (VCU). Furthermore, by utilizing a Context Adapter structure, we inject different task concepts into the model using formalized representations of temporal and spatial dimensions, allowing it to handle arbitrary video synthesis tasks flexibly. Extensive experiments demonstrate that the unified model of VACE achieves performance on par with task-specific models across various subtasks. Simultaneously, it enables diverse applications through versatile task combinations. Project page: https://ali-vilab.github.io/VACE-Page/.

VACE: Универсальное решение для создания и редактирования видео

VACE: All-in-One Video Creation and Editing

Аннотация

Support