ChatPaper.aiChatPaper

Het mogelijk maken van veelzijdige besturingen voor videodiffusiemodellen

Enabling Versatile Controls for Video Diffusion Models

March 21, 2025
Auteurs: Xu Zhang, Hao Zhou, Haoming Qin, Xiaobin Lu, Jiaxing Yan, Guanzhong Wang, Zeyu Chen, Yi Liu
cs.AI

Samenvatting

Ondanks aanzienlijke vooruitgang in tekst-naar-video-generatie, blijft het bereiken van precieze en flexibele controle over fijnmazige spatiotemporele attributen een belangrijke onopgeloste uitdaging in onderzoek naar videogeneratie. Om deze beperkingen aan te pakken, introduceren we VCtrl (ook wel PP-VCtrl genoemd), een nieuw framework ontworpen om fijnmazige controle over vooraf getrainde videodiffusiemodellen op een uniforme manier mogelijk te maken. VCtrl integreert diverse door de gebruiker gespecificeerde controlesignalen—zoals Canny edges, segmentatiemaskers en menselijke keypoints—in vooraf getrainde videodiffusiemodellen via een generaliseerbare conditionele module die in staat is om meerdere typen hulpsignalen uniform te coderen zonder de onderliggende generator aan te passen. Daarnaast ontwerpen we een uniforme pijplijn voor het coderen van controlesignalen en een mechanisme voor sparse residuele verbindingen om controle-representaties efficiënt te incorporeren. Uitgebreide experimenten en menselijke evaluaties tonen aan dat VCtrl de beheersbaarheid en generatiekwaliteit effectief verbetert. De broncode en vooraf getrainde modellen zijn publiekelijk beschikbaar en geïmplementeerd met behulp van het PaddlePaddle-framework op http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.
English
Despite substantial progress in text-to-video generation, achieving precise and flexible control over fine-grained spatiotemporal attributes remains a significant unresolved challenge in video generation research. To address these limitations, we introduce VCtrl (also termed PP-VCtrl), a novel framework designed to enable fine-grained control over pre-trained video diffusion models in a unified manner. VCtrl integrates diverse user-specified control signals-such as Canny edges, segmentation masks, and human keypoints-into pretrained video diffusion models via a generalizable conditional module capable of uniformly encoding multiple types of auxiliary signals without modifying the underlying generator. Additionally, we design a unified control signal encoding pipeline and a sparse residual connection mechanism to efficiently incorporate control representations. Comprehensive experiments and human evaluations demonstrate that VCtrl effectively enhances controllability and generation quality. The source code and pre-trained models are publicly available and implemented using the PaddlePaddle framework at http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.

Summary

AI-Generated Summary

PDF152March 24, 2025