Uni3C: 비디오 생성을 위한 정밀 3D 강화 카메라와 인간 동작 제어의 통합
Uni3C: Unifying Precisely 3D-Enhanced Camera and Human Motion Controls for Video Generation
April 21, 2025
저자: Chenjie Cao, Jingkai Zhou, Shikai Li, Jingyun Liang, Chaohui Yu, Fan Wang, Xiangyang Xue, Yanwei Fu
cs.AI
초록
카메라와 인간 동작 제어는 비디오 생성 분야에서 광범위하게 연구되어 왔지만, 기존 접근 방식들은 일반적으로 이를 별도로 다루며 양 측면 모두에 대한 고품질 주석이 포함된 데이터의 한계를 겪어왔습니다. 이를 극복하기 위해, 우리는 비디오 생성에서 카메라와 인간 동작 모두를 정밀하게 제어할 수 있는 통합된 3D 강화 프레임워크인 Uni3C를 제안합니다. Uni3C는 두 가지 주요 기여를 포함합니다. 첫째, 고정된 비디오 생성 백본과 함께 훈련된 플러그 앤 플레이 제어 모듈인 PCDController를 제안합니다. 이 모듈은 단안 깊이에서 얻은 비투영 포인트 클라우드를 활용하여 정확한 카메라 제어를 달성합니다. 포인트 클라우드의 강력한 3D 사전 지식과 비디오 기반 모델의 강력한 능력을 활용함으로써, PCDController는 추론 백본이 고정되었는지 아니면 미세 조정되었는지에 관계없이 탁월한 일반화 성능을 보여줍니다. 이러한 유연성은 Uni3C의 다양한 모듈이 특정 도메인(즉, 카메라 제어 또는 인간 동작 제어)에서 훈련될 수 있게 하여, 공동 주석 데이터에 대한 의존성을 줄입니다. 둘째, 추론 단계에서 장면 포인트 클라우드와 SMPL-X 캐릭터를 원활하게 통합하여 카메라와 인간 동작에 대한 제어 신호를 통일하는 공동 정렬 3D 세계 가이던스를 제안합니다. 광범위한 실험을 통해 PCDController가 비디오 생성의 미세 조정된 백본에서 카메라 동작을 구동하는 데 강력한 견고성을 가지고 있음이 확인되었습니다. Uni3C는 카메라 제어 가능성과 인간 동작 품질 모두에서 경쟁사들을 크게 능가합니다. 또한, 우리는 도전적인 카메라 움직임과 인간 동작을 특징으로 하는 맞춤형 검증 세트를 수집하여 우리 방법의 효과를 검증했습니다.
English
Camera and human motion controls have been extensively studied for video
generation, but existing approaches typically address them separately,
suffering from limited data with high-quality annotations for both aspects. To
overcome this, we present Uni3C, a unified 3D-enhanced framework for precise
control of both camera and human motion in video generation. Uni3C includes two
key contributions. First, we propose a plug-and-play control module trained
with a frozen video generative backbone, PCDController, which utilizes
unprojected point clouds from monocular depth to achieve accurate camera
control. By leveraging the strong 3D priors of point clouds and the powerful
capacities of video foundational models, PCDController shows impressive
generalization, performing well regardless of whether the inference backbone is
frozen or fine-tuned. This flexibility enables different modules of Uni3C to be
trained in specific domains, i.e., either camera control or human motion
control, reducing the dependency on jointly annotated data. Second, we propose
a jointly aligned 3D world guidance for the inference phase that seamlessly
integrates both scenic point clouds and SMPL-X characters to unify the control
signals for camera and human motion, respectively. Extensive experiments
confirm that PCDController enjoys strong robustness in driving camera motion
for fine-tuned backbones of video generation. Uni3C substantially outperforms
competitors in both camera controllability and human motion quality.
Additionally, we collect tailored validation sets featuring challenging camera
movements and human actions to validate the effectiveness of our method.Summary
AI-Generated Summary