Обеспечение универсального управления моделями диффузии видео
Enabling Versatile Controls for Video Diffusion Models
March 21, 2025
Авторы: Xu Zhang, Hao Zhou, Haoming Qin, Xiaobin Lu, Jiaxing Yan, Guanzhong Wang, Zeyu Chen, Yi Liu
cs.AI
Аннотация
Несмотря на значительный прогресс в генерации видео из текста, достижение точного и гибкого контроля над детализированными пространственно-временными атрибутами остается важной нерешенной задачей в исследованиях по генерации видео. Для преодоления этих ограничений мы представляем VCtrl (также называемый PP-VCtrl) — новую архитектуру, предназначенную для обеспечения детализированного контроля над предобученными моделями диффузии видео в унифицированном формате. VCtrl интегрирует разнообразные пользовательские управляющие сигналы, такие как границы Канни, маски сегментации и ключевые точки человека, в предобученные модели диффузии видео с помощью обобщаемого условного модуля, способного единообразно кодировать различные типы вспомогательных сигналов без изменения базового генератора. Кроме того, мы разработали унифицированный конвейер кодирования управляющих сигналов и механизм разреженных остаточных связей для эффективного включения управляющих представлений. Комплексные эксперименты и оценки пользователей демонстрируют, что VCtrl значительно повышает управляемость и качество генерации. Исходный код и предобученные модели доступны публично и реализованы с использованием фреймворка PaddlePaddle по адресу http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.
English
Despite substantial progress in text-to-video generation, achieving precise
and flexible control over fine-grained spatiotemporal attributes remains a
significant unresolved challenge in video generation research. To address these
limitations, we introduce VCtrl (also termed PP-VCtrl), a novel framework
designed to enable fine-grained control over pre-trained video diffusion models
in a unified manner. VCtrl integrates diverse user-specified control
signals-such as Canny edges, segmentation masks, and human keypoints-into
pretrained video diffusion models via a generalizable conditional module
capable of uniformly encoding multiple types of auxiliary signals without
modifying the underlying generator. Additionally, we design a unified control
signal encoding pipeline and a sparse residual connection mechanism to
efficiently incorporate control representations. Comprehensive experiments and
human evaluations demonstrate that VCtrl effectively enhances controllability
and generation quality. The source code and pre-trained models are publicly
available and implemented using the PaddlePaddle framework at
http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.Summary
AI-Generated Summary