Abilitare controlli versatili per i modelli di diffusione video
Enabling Versatile Controls for Video Diffusion Models
March 21, 2025
Autori: Xu Zhang, Hao Zhou, Haoming Qin, Xiaobin Lu, Jiaxing Yan, Guanzhong Wang, Zeyu Chen, Yi Liu
cs.AI
Abstract
Nonostante i significativi progressi nella generazione di video da testo, il raggiungimento di un controllo preciso e flessibile sugli attributi spazio-temporali di dettaglio rimane una sfida importante e irrisolta nella ricerca sulla generazione di video. Per affrontare queste limitazioni, introduciamo VCtrl (anche denominato PP-VCtrl), un nuovo framework progettato per abilitare un controllo fine su modelli di diffusione video pre-addestrati in modo unificato. VCtrl integra segnali di controllo specificati dall'utente, come bordi Canny, maschere di segmentazione e punti chiave umani, nei modelli di diffusione video pre-addestrati attraverso un modulo condizionale generalizzabile in grado di codificare uniformemente più tipi di segnali ausiliari senza modificare il generatore sottostante. Inoltre, progettiamo una pipeline unificata per la codifica dei segnali di controllo e un meccanismo di connessione residua sparsa per incorporare in modo efficiente le rappresentazioni di controllo. Esperimenti completi e valutazioni umane dimostrano che VCtrl migliora efficacemente la controllabilità e la qualità della generazione. Il codice sorgente e i modelli pre-addestrati sono disponibili pubblicamente e implementati utilizzando il framework PaddlePaddle all'indirizzo http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.
English
Despite substantial progress in text-to-video generation, achieving precise
and flexible control over fine-grained spatiotemporal attributes remains a
significant unresolved challenge in video generation research. To address these
limitations, we introduce VCtrl (also termed PP-VCtrl), a novel framework
designed to enable fine-grained control over pre-trained video diffusion models
in a unified manner. VCtrl integrates diverse user-specified control
signals-such as Canny edges, segmentation masks, and human keypoints-into
pretrained video diffusion models via a generalizable conditional module
capable of uniformly encoding multiple types of auxiliary signals without
modifying the underlying generator. Additionally, we design a unified control
signal encoding pipeline and a sparse residual connection mechanism to
efficiently incorporate control representations. Comprehensive experiments and
human evaluations demonstrate that VCtrl effectively enhances controllability
and generation quality. The source code and pre-trained models are publicly
available and implemented using the PaddlePaddle framework at
http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.