Habilitando Controles Versáteis para Modelos de Difusão de Vídeo

Resumo

Apesar dos avanços significativos na geração de texto para vídeo, alcançar controle preciso e flexível sobre atributos espaço-temporais de granularidade fina continua sendo um desafio importante e não resolvido na pesquisa de geração de vídeo. Para abordar essas limitações, introduzimos o VCtrl (também denominado PP-VCtrl), uma nova estrutura projetada para permitir o controle de granularidade fina sobre modelos de difusão de vídeo pré-treinados de maneira unificada. O VCtrl integra diversos sinais de controle especificados pelo usuário—como bordas Canny, máscaras de segmentação e pontos-chave humanos—em modelos de difusão de vídeo pré-treinados por meio de um módulo condicional generalizável capaz de codificar uniformemente múltiplos tipos de sinais auxiliares sem modificar o gerador subjacente. Além disso, projetamos um pipeline unificado de codificação de sinais de controle e um mecanismo de conexão residual esparsa para incorporar eficientemente as representações de controle. Experimentos abrangentes e avaliações humanas demonstram que o VCtrl melhora efetivamente a controlabilidade e a qualidade da geração. O código-fonte e os modelos pré-treinados estão publicamente disponíveis e implementados usando a estrutura PaddlePaddle em http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.

English

Despite substantial progress in text-to-video generation, achieving precise and flexible control over fine-grained spatiotemporal attributes remains a significant unresolved challenge in video generation research. To address these limitations, we introduce VCtrl (also termed PP-VCtrl), a novel framework designed to enable fine-grained control over pre-trained video diffusion models in a unified manner. VCtrl integrates diverse user-specified control signals-such as Canny edges, segmentation masks, and human keypoints-into pretrained video diffusion models via a generalizable conditional module capable of uniformly encoding multiple types of auxiliary signals without modifying the underlying generator. Additionally, we design a unified control signal encoding pipeline and a sparse residual connection mechanism to efficiently incorporate control representations. Comprehensive experiments and human evaluations demonstrate that VCtrl effectively enhances controllability and generation quality. The source code and pre-trained models are publicly available and implemented using the PaddlePaddle framework at http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.

Habilitando Controles Versáteis para Modelos de Difusão de Vídeo

Enabling Versatile Controls for Video Diffusion Models

Resumo

Support