비디오 확산 모델을 위한 다목적 제어 기능 활성화
Enabling Versatile Controls for Video Diffusion Models
March 21, 2025
저자: Xu Zhang, Hao Zhou, Haoming Qin, Xiaobin Lu, Jiaxing Yan, Guanzhong Wang, Zeyu Chen, Yi Liu
cs.AI
초록
텍스트-투-비디오 생성 분야에서 상당한 진전이 있었음에도 불구하고, 미세한 시공간적 속성에 대한 정밀하고 유연한 제어를 달성하는 것은 비디오 생성 연구에서 여전히 중요한 미해결 과제로 남아 있습니다. 이러한 한계를 해결하기 위해, 우리는 VCtrl(PP-VCtrl로도 불림)이라는 새로운 프레임워크를 소개합니다. 이 프레임워크는 사전 학습된 비디오 확산 모델에 대해 통합된 방식으로 미세한 제어를 가능하게 하도록 설계되었습니다. VCtrl은 Canny 에지, 세그멘테이션 마스크, 인간 키포인트와 같은 다양한 사용자 지정 제어 신호를 사전 학습된 비디오 확산 모델에 통합합니다. 이를 위해 일반화 가능한 조건부 모듈을 사용하여 기본 생성기를 수정하지 않고도 여러 유형의 보조 신호를 균일하게 인코딩할 수 있습니다. 또한, 통합된 제어 신호 인코딩 파이프라인과 희소 잔차 연결 메커니즘을 설계하여 제어 표현을 효율적으로 통합합니다. 포괄적인 실험과 인간 평가를 통해 VCtrl이 제어 가능성과 생성 품질을 효과적으로 향상시킨다는 것을 입증했습니다. 소스 코드와 사전 학습된 모델은 PaddlePaddle 프레임워크를 사용하여 공개적으로 제공되며, http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl에서 확인할 수 있습니다.
English
Despite substantial progress in text-to-video generation, achieving precise
and flexible control over fine-grained spatiotemporal attributes remains a
significant unresolved challenge in video generation research. To address these
limitations, we introduce VCtrl (also termed PP-VCtrl), a novel framework
designed to enable fine-grained control over pre-trained video diffusion models
in a unified manner. VCtrl integrates diverse user-specified control
signals-such as Canny edges, segmentation masks, and human keypoints-into
pretrained video diffusion models via a generalizable conditional module
capable of uniformly encoding multiple types of auxiliary signals without
modifying the underlying generator. Additionally, we design a unified control
signal encoding pipeline and a sparse residual connection mechanism to
efficiently incorporate control representations. Comprehensive experiments and
human evaluations demonstrate that VCtrl effectively enhances controllability
and generation quality. The source code and pre-trained models are publicly
available and implemented using the PaddlePaddle framework at
http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.Summary
AI-Generated Summary