Habilitando controles versátiles para modelos de difusión de video
Enabling Versatile Controls for Video Diffusion Models
March 21, 2025
Autores: Xu Zhang, Hao Zhou, Haoming Qin, Xiaobin Lu, Jiaxing Yan, Guanzhong Wang, Zeyu Chen, Yi Liu
cs.AI
Resumen
A pesar de los avances significativos en la generación de texto a video, lograr un control preciso y flexible sobre los atributos espacio-temporales de grano fino sigue siendo un desafío importante sin resolver en la investigación de generación de videos. Para abordar estas limitaciones, presentamos VCtrl (también denominado PP-VCtrl), un marco novedoso diseñado para permitir un control detallado sobre modelos de difusión de video preentrenados de manera unificada. VCtrl integra diversas señales de control especificadas por el usuario, como bordes Canny, máscaras de segmentación y puntos clave humanos, en modelos de difusión de video preentrenados a través de un módulo condicional generalizable capaz de codificar uniformemente múltiples tipos de señales auxiliares sin modificar el generador subyacente. Además, diseñamos una canalización unificada de codificación de señales de control y un mecanismo de conexión residual dispersa para incorporar eficientemente las representaciones de control. Experimentos exhaustivos y evaluaciones humanas demuestran que VCtrl mejora efectivamente la controlabilidad y la calidad de la generación. El código fuente y los modelos preentrenados están disponibles públicamente e implementados utilizando el marco PaddlePaddle en http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.
English
Despite substantial progress in text-to-video generation, achieving precise
and flexible control over fine-grained spatiotemporal attributes remains a
significant unresolved challenge in video generation research. To address these
limitations, we introduce VCtrl (also termed PP-VCtrl), a novel framework
designed to enable fine-grained control over pre-trained video diffusion models
in a unified manner. VCtrl integrates diverse user-specified control
signals-such as Canny edges, segmentation masks, and human keypoints-into
pretrained video diffusion models via a generalizable conditional module
capable of uniformly encoding multiple types of auxiliary signals without
modifying the underlying generator. Additionally, we design a unified control
signal encoding pipeline and a sparse residual connection mechanism to
efficiently incorporate control representations. Comprehensive experiments and
human evaluations demonstrate that VCtrl effectively enhances controllability
and generation quality. The source code and pre-trained models are publicly
available and implemented using the PaddlePaddle framework at
http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.Summary
AI-Generated Summary