ChatPaper.aiChatPaper

Обеспечение универсального управления моделями диффузии видео

Enabling Versatile Controls for Video Diffusion Models

March 21, 2025
Авторы: Xu Zhang, Hao Zhou, Haoming Qin, Xiaobin Lu, Jiaxing Yan, Guanzhong Wang, Zeyu Chen, Yi Liu
cs.AI

Аннотация

Несмотря на значительный прогресс в генерации видео из текста, достижение точного и гибкого контроля над детализированными пространственно-временными атрибутами остается важной нерешенной задачей в исследованиях по генерации видео. Для преодоления этих ограничений мы представляем VCtrl (также называемый PP-VCtrl) — новую архитектуру, предназначенную для обеспечения детализированного контроля над предобученными моделями диффузии видео в унифицированном формате. VCtrl интегрирует разнообразные пользовательские управляющие сигналы, такие как границы Канни, маски сегментации и ключевые точки человека, в предобученные модели диффузии видео с помощью обобщаемого условного модуля, способного единообразно кодировать различные типы вспомогательных сигналов без изменения базового генератора. Кроме того, мы разработали унифицированный конвейер кодирования управляющих сигналов и механизм разреженных остаточных связей для эффективного включения управляющих представлений. Комплексные эксперименты и оценки пользователей демонстрируют, что VCtrl значительно повышает управляемость и качество генерации. Исходный код и предобученные модели доступны публично и реализованы с использованием фреймворка PaddlePaddle по адресу http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.
English
Despite substantial progress in text-to-video generation, achieving precise and flexible control over fine-grained spatiotemporal attributes remains a significant unresolved challenge in video generation research. To address these limitations, we introduce VCtrl (also termed PP-VCtrl), a novel framework designed to enable fine-grained control over pre-trained video diffusion models in a unified manner. VCtrl integrates diverse user-specified control signals-such as Canny edges, segmentation masks, and human keypoints-into pretrained video diffusion models via a generalizable conditional module capable of uniformly encoding multiple types of auxiliary signals without modifying the underlying generator. Additionally, we design a unified control signal encoding pipeline and a sparse residual connection mechanism to efficiently incorporate control representations. Comprehensive experiments and human evaluations demonstrate that VCtrl effectively enhances controllability and generation quality. The source code and pre-trained models are publicly available and implemented using the PaddlePaddle framework at http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.

Summary

AI-Generated Summary

PDF152March 24, 2025