ChatPaper.aiChatPaper

Abilitare controlli versatili per i modelli di diffusione video

Enabling Versatile Controls for Video Diffusion Models

March 21, 2025
Autori: Xu Zhang, Hao Zhou, Haoming Qin, Xiaobin Lu, Jiaxing Yan, Guanzhong Wang, Zeyu Chen, Yi Liu
cs.AI

Abstract

Nonostante i significativi progressi nella generazione di video da testo, il raggiungimento di un controllo preciso e flessibile sugli attributi spazio-temporali di dettaglio rimane una sfida importante e irrisolta nella ricerca sulla generazione di video. Per affrontare queste limitazioni, introduciamo VCtrl (anche denominato PP-VCtrl), un nuovo framework progettato per abilitare un controllo fine su modelli di diffusione video pre-addestrati in modo unificato. VCtrl integra segnali di controllo specificati dall'utente, come bordi Canny, maschere di segmentazione e punti chiave umani, nei modelli di diffusione video pre-addestrati attraverso un modulo condizionale generalizzabile in grado di codificare uniformemente più tipi di segnali ausiliari senza modificare il generatore sottostante. Inoltre, progettiamo una pipeline unificata per la codifica dei segnali di controllo e un meccanismo di connessione residua sparsa per incorporare in modo efficiente le rappresentazioni di controllo. Esperimenti completi e valutazioni umane dimostrano che VCtrl migliora efficacemente la controllabilità e la qualità della generazione. Il codice sorgente e i modelli pre-addestrati sono disponibili pubblicamente e implementati utilizzando il framework PaddlePaddle all'indirizzo http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.
English
Despite substantial progress in text-to-video generation, achieving precise and flexible control over fine-grained spatiotemporal attributes remains a significant unresolved challenge in video generation research. To address these limitations, we introduce VCtrl (also termed PP-VCtrl), a novel framework designed to enable fine-grained control over pre-trained video diffusion models in a unified manner. VCtrl integrates diverse user-specified control signals-such as Canny edges, segmentation masks, and human keypoints-into pretrained video diffusion models via a generalizable conditional module capable of uniformly encoding multiple types of auxiliary signals without modifying the underlying generator. Additionally, we design a unified control signal encoding pipeline and a sparse residual connection mechanism to efficiently incorporate control representations. Comprehensive experiments and human evaluations demonstrate that VCtrl effectively enhances controllability and generation quality. The source code and pre-trained models are publicly available and implemented using the PaddlePaddle framework at http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.
PDF152March 24, 2025