ChatPaper.aiChatPaper

ビデオ拡散モデルのための多様な制御機能の実現

Enabling Versatile Controls for Video Diffusion Models

March 21, 2025
著者: Xu Zhang, Hao Zhou, Haoming Qin, Xiaobin Lu, Jiaxing Yan, Guanzhong Wang, Zeyu Chen, Yi Liu
cs.AI

要旨

テキストからビデオ生成において大きな進展があったにもかかわらず、細粒度の時空間属性に対する正確で柔軟な制御を実現することは、ビデオ生成研究における重要な未解決の課題です。これらの制限に対処するため、我々はVCtrl(別名PP-VCtrl)という新しいフレームワークを提案します。このフレームワークは、事前学習済みのビデオ拡散モデルに対して統一的な方法で細粒度の制御を可能にするように設計されています。VCtrlは、Cannyエッジ、セグメンテーションマスク、人間のキーポイントなど、多様なユーザー指定の制御信号を、基盤となる生成器を変更することなく、複数の種類の補助信号を均一にエンコードできる汎用的な条件付きモジュールを介して事前学習済みビデオ拡散モデルに統合します。さらに、統一された制御信号エンコーディングパイプラインとスパースな残差接続メカニズムを設計し、制御表現を効率的に組み込みます。包括的な実験と人間による評価により、VCtrlが制御性と生成品質を効果的に向上させることが実証されています。ソースコードと事前学習済みモデルは公開されており、PaddlePaddleフレームワークを使用してhttp://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrlで実装されています。
English
Despite substantial progress in text-to-video generation, achieving precise and flexible control over fine-grained spatiotemporal attributes remains a significant unresolved challenge in video generation research. To address these limitations, we introduce VCtrl (also termed PP-VCtrl), a novel framework designed to enable fine-grained control over pre-trained video diffusion models in a unified manner. VCtrl integrates diverse user-specified control signals-such as Canny edges, segmentation masks, and human keypoints-into pretrained video diffusion models via a generalizable conditional module capable of uniformly encoding multiple types of auxiliary signals without modifying the underlying generator. Additionally, we design a unified control signal encoding pipeline and a sparse residual connection mechanism to efficiently incorporate control representations. Comprehensive experiments and human evaluations demonstrate that VCtrl effectively enhances controllability and generation quality. The source code and pre-trained models are publicly available and implemented using the PaddlePaddle framework at http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.

Summary

AI-Generated Summary

PDF152March 24, 2025