ChatPaper.aiChatPaper

Habilitando controles versátiles para modelos de difusión de video

Enabling Versatile Controls for Video Diffusion Models

March 21, 2025
Autores: Xu Zhang, Hao Zhou, Haoming Qin, Xiaobin Lu, Jiaxing Yan, Guanzhong Wang, Zeyu Chen, Yi Liu
cs.AI

Resumen

A pesar de los avances significativos en la generación de texto a video, lograr un control preciso y flexible sobre los atributos espacio-temporales de grano fino sigue siendo un desafío importante sin resolver en la investigación de generación de videos. Para abordar estas limitaciones, presentamos VCtrl (también denominado PP-VCtrl), un marco novedoso diseñado para permitir un control detallado sobre modelos de difusión de video preentrenados de manera unificada. VCtrl integra diversas señales de control especificadas por el usuario, como bordes Canny, máscaras de segmentación y puntos clave humanos, en modelos de difusión de video preentrenados a través de un módulo condicional generalizable capaz de codificar uniformemente múltiples tipos de señales auxiliares sin modificar el generador subyacente. Además, diseñamos una canalización unificada de codificación de señales de control y un mecanismo de conexión residual dispersa para incorporar eficientemente las representaciones de control. Experimentos exhaustivos y evaluaciones humanas demuestran que VCtrl mejora efectivamente la controlabilidad y la calidad de la generación. El código fuente y los modelos preentrenados están disponibles públicamente e implementados utilizando el marco PaddlePaddle en http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.
English
Despite substantial progress in text-to-video generation, achieving precise and flexible control over fine-grained spatiotemporal attributes remains a significant unresolved challenge in video generation research. To address these limitations, we introduce VCtrl (also termed PP-VCtrl), a novel framework designed to enable fine-grained control over pre-trained video diffusion models in a unified manner. VCtrl integrates diverse user-specified control signals-such as Canny edges, segmentation masks, and human keypoints-into pretrained video diffusion models via a generalizable conditional module capable of uniformly encoding multiple types of auxiliary signals without modifying the underlying generator. Additionally, we design a unified control signal encoding pipeline and a sparse residual connection mechanism to efficiently incorporate control representations. Comprehensive experiments and human evaluations demonstrate that VCtrl effectively enhances controllability and generation quality. The source code and pre-trained models are publicly available and implemented using the PaddlePaddle framework at http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.

Summary

AI-Generated Summary

PDF152March 24, 2025