Habilitando Controles Versáteis para Modelos de Difusão de Vídeo
Enabling Versatile Controls for Video Diffusion Models
March 21, 2025
Autores: Xu Zhang, Hao Zhou, Haoming Qin, Xiaobin Lu, Jiaxing Yan, Guanzhong Wang, Zeyu Chen, Yi Liu
cs.AI
Resumo
Apesar dos avanços significativos na geração de texto para vídeo, alcançar controle preciso e flexível sobre atributos espaço-temporais de granularidade fina continua sendo um desafio importante e não resolvido na pesquisa de geração de vídeo. Para abordar essas limitações, introduzimos o VCtrl (também denominado PP-VCtrl), uma nova estrutura projetada para permitir o controle de granularidade fina sobre modelos de difusão de vídeo pré-treinados de maneira unificada. O VCtrl integra diversos sinais de controle especificados pelo usuário—como bordas Canny, máscaras de segmentação e pontos-chave humanos—em modelos de difusão de vídeo pré-treinados por meio de um módulo condicional generalizável capaz de codificar uniformemente múltiplos tipos de sinais auxiliares sem modificar o gerador subjacente. Além disso, projetamos um pipeline unificado de codificação de sinais de controle e um mecanismo de conexão residual esparsa para incorporar eficientemente as representações de controle. Experimentos abrangentes e avaliações humanas demonstram que o VCtrl melhora efetivamente a controlabilidade e a qualidade da geração. O código-fonte e os modelos pré-treinados estão publicamente disponíveis e implementados usando a estrutura PaddlePaddle em http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.
English
Despite substantial progress in text-to-video generation, achieving precise
and flexible control over fine-grained spatiotemporal attributes remains a
significant unresolved challenge in video generation research. To address these
limitations, we introduce VCtrl (also termed PP-VCtrl), a novel framework
designed to enable fine-grained control over pre-trained video diffusion models
in a unified manner. VCtrl integrates diverse user-specified control
signals-such as Canny edges, segmentation masks, and human keypoints-into
pretrained video diffusion models via a generalizable conditional module
capable of uniformly encoding multiple types of auxiliary signals without
modifying the underlying generator. Additionally, we design a unified control
signal encoding pipeline and a sparse residual connection mechanism to
efficiently incorporate control representations. Comprehensive experiments and
human evaluations demonstrate that VCtrl effectively enhances controllability
and generation quality. The source code and pre-trained models are publicly
available and implemented using the PaddlePaddle framework at
http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.Summary
AI-Generated Summary