Uni3C: Unificazione di Controlli Precisi della Fotocamera Arricchita in 3D e del Movimento Umano per la Generazione di Video
Uni3C: Unifying Precisely 3D-Enhanced Camera and Human Motion Controls for Video Generation
April 21, 2025
Autori: Chenjie Cao, Jingkai Zhou, Shikai Li, Jingyun Liang, Chaohui Yu, Fan Wang, Xiangyang Xue, Yanwei Fu
cs.AI
Abstract
Il controllo della telecamera e del movimento umano è stato ampiamente studiato per la generazione di video, ma gli approcci esistenti tipicamente li affrontano separatamente, soffrendo di dati limitati con annotazioni di alta qualità per entrambi gli aspetti. Per superare questo limite, presentiamo Uni3C, un framework unificato potenziato in 3D per il controllo preciso sia della telecamera che del movimento umano nella generazione di video. Uni3C include due contributi chiave. In primo luogo, proponiamo un modulo di controllo plug-and-play addestrato con un backbone generativo di video congelato, PCDController, che utilizza nuvole di punti non proiettate dalla profondità monoculare per ottenere un controllo accurato della telecamera. Sfruttando i forti prior 3D delle nuvole di punti e le potenti capacità dei modelli di base per i video, PCDController mostra un'impressionante generalizzazione, performando bene indipendentemente dal fatto che il backbone di inferenza sia congelato o fine-tuned. Questa flessibilità consente ai diversi moduli di Uni3C di essere addestrati in domini specifici, ovvero il controllo della telecamera o il controllo del movimento umano, riducendo la dipendenza da dati annotati congiuntamente. In secondo luogo, proponiamo una guida 3D allineata congiuntamente per la fase di inferenza che integra in modo fluido sia le nuvole di punti sceniche che i personaggi SMPL-X per unificare i segnali di controllo rispettivamente per la telecamera e il movimento umano. Esperimenti estensivi confermano che PCDController gode di una forte robustezza nel guidare il movimento della telecamera per backbone fine-tuned di generazione video. Uni3C supera sostanzialmente i concorrenti sia nella controllabilità della telecamera che nella qualità del movimento umano. Inoltre, abbiamo raccolto set di validazione personalizzati che presentano movimenti della telecamera e azioni umane impegnative per validare l'efficacia del nostro metodo.
English
Camera and human motion controls have been extensively studied for video
generation, but existing approaches typically address them separately,
suffering from limited data with high-quality annotations for both aspects. To
overcome this, we present Uni3C, a unified 3D-enhanced framework for precise
control of both camera and human motion in video generation. Uni3C includes two
key contributions. First, we propose a plug-and-play control module trained
with a frozen video generative backbone, PCDController, which utilizes
unprojected point clouds from monocular depth to achieve accurate camera
control. By leveraging the strong 3D priors of point clouds and the powerful
capacities of video foundational models, PCDController shows impressive
generalization, performing well regardless of whether the inference backbone is
frozen or fine-tuned. This flexibility enables different modules of Uni3C to be
trained in specific domains, i.e., either camera control or human motion
control, reducing the dependency on jointly annotated data. Second, we propose
a jointly aligned 3D world guidance for the inference phase that seamlessly
integrates both scenic point clouds and SMPL-X characters to unify the control
signals for camera and human motion, respectively. Extensive experiments
confirm that PCDController enjoys strong robustness in driving camera motion
for fine-tuned backbones of video generation. Uni3C substantially outperforms
competitors in both camera controllability and human motion quality.
Additionally, we collect tailored validation sets featuring challenging camera
movements and human actions to validate the effectiveness of our method.Summary
AI-Generated Summary