ChatPaper.aiChatPaper

Permettre des contrôles polyvalents pour les modèles de diffusion vidéo

Enabling Versatile Controls for Video Diffusion Models

March 21, 2025
Auteurs: Xu Zhang, Hao Zhou, Haoming Qin, Xiaobin Lu, Jiaxing Yan, Guanzhong Wang, Zeyu Chen, Yi Liu
cs.AI

Résumé

Malgré des progrès substantiels dans la génération de texte-à-vidéo, la maîtrise précise et flexible des attributs spatio-temporels à granularité fine reste un défi majeur non résolu dans la recherche sur la génération vidéo. Pour surmonter ces limitations, nous présentons VCtrl (également appelé PP-VCtrl), un nouveau cadre conçu pour permettre un contrôle granulaire des modèles de diffusion vidéo pré-entraînés de manière unifiée. VCtrl intègre divers signaux de contrôle spécifiés par l'utilisateur—tels que les contours Canny, les masques de segmentation et les points clés humains—dans les modèles de diffusion vidéo pré-entraînés via un module conditionnel généralisable capable d'encoder uniformément plusieurs types de signaux auxiliaires sans modifier le générateur sous-jacent. De plus, nous concevons un pipeline unifié d'encodage des signaux de contrôle et un mécanisme de connexion résiduelle parcimonieuse pour incorporer efficacement les représentations de contrôle. Des expériences approfondies et des évaluations humaines démontrent que VCtrl améliore significativement la contrôlabilité et la qualité de génération. Le code source et les modèles pré-entraînés sont disponibles publiquement et implémentés à l'aide du framework PaddlePaddle à l'adresse suivante : http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.
English
Despite substantial progress in text-to-video generation, achieving precise and flexible control over fine-grained spatiotemporal attributes remains a significant unresolved challenge in video generation research. To address these limitations, we introduce VCtrl (also termed PP-VCtrl), a novel framework designed to enable fine-grained control over pre-trained video diffusion models in a unified manner. VCtrl integrates diverse user-specified control signals-such as Canny edges, segmentation masks, and human keypoints-into pretrained video diffusion models via a generalizable conditional module capable of uniformly encoding multiple types of auxiliary signals without modifying the underlying generator. Additionally, we design a unified control signal encoding pipeline and a sparse residual connection mechanism to efficiently incorporate control representations. Comprehensive experiments and human evaluations demonstrate that VCtrl effectively enhances controllability and generation quality. The source code and pre-trained models are publicly available and implemented using the PaddlePaddle framework at http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.

Summary

AI-Generated Summary

PDF152March 24, 2025