Uni3C: Unificazione di Controlli Precisi della Fotocamera Arricchita in 3D e del Movimento Umano per la Generazione di Video

Abstract

Il controllo della telecamera e del movimento umano è stato ampiamente studiato per la generazione di video, ma gli approcci esistenti tipicamente li affrontano separatamente, soffrendo di dati limitati con annotazioni di alta qualità per entrambi gli aspetti. Per superare questo limite, presentiamo Uni3C, un framework unificato potenziato in 3D per il controllo preciso sia della telecamera che del movimento umano nella generazione di video. Uni3C include due contributi chiave. In primo luogo, proponiamo un modulo di controllo plug-and-play addestrato con un backbone generativo di video congelato, PCDController, che utilizza nuvole di punti non proiettate dalla profondità monoculare per ottenere un controllo accurato della telecamera. Sfruttando i forti prior 3D delle nuvole di punti e le potenti capacità dei modelli di base per i video, PCDController mostra un'impressionante generalizzazione, performando bene indipendentemente dal fatto che il backbone di inferenza sia congelato o fine-tuned. Questa flessibilità consente ai diversi moduli di Uni3C di essere addestrati in domini specifici, ovvero il controllo della telecamera o il controllo del movimento umano, riducendo la dipendenza da dati annotati congiuntamente. In secondo luogo, proponiamo una guida 3D allineata congiuntamente per la fase di inferenza che integra in modo fluido sia le nuvole di punti sceniche che i personaggi SMPL-X per unificare i segnali di controllo rispettivamente per la telecamera e il movimento umano. Esperimenti estensivi confermano che PCDController gode di una forte robustezza nel guidare il movimento della telecamera per backbone fine-tuned di generazione video. Uni3C supera sostanzialmente i concorrenti sia nella controllabilità della telecamera che nella qualità del movimento umano. Inoltre, abbiamo raccolto set di validazione personalizzati che presentano movimenti della telecamera e azioni umane impegnative per validare l'efficacia del nostro metodo.

English

Camera and human motion controls have been extensively studied for video generation, but existing approaches typically address them separately, suffering from limited data with high-quality annotations for both aspects. To overcome this, we present Uni3C, a unified 3D-enhanced framework for precise control of both camera and human motion in video generation. Uni3C includes two key contributions. First, we propose a plug-and-play control module trained with a frozen video generative backbone, PCDController, which utilizes unprojected point clouds from monocular depth to achieve accurate camera control. By leveraging the strong 3D priors of point clouds and the powerful capacities of video foundational models, PCDController shows impressive generalization, performing well regardless of whether the inference backbone is frozen or fine-tuned. This flexibility enables different modules of Uni3C to be trained in specific domains, i.e., either camera control or human motion control, reducing the dependency on jointly annotated data. Second, we propose a jointly aligned 3D world guidance for the inference phase that seamlessly integrates both scenic point clouds and SMPL-X characters to unify the control signals for camera and human motion, respectively. Extensive experiments confirm that PCDController enjoys strong robustness in driving camera motion for fine-tuned backbones of video generation. Uni3C substantially outperforms competitors in both camera controllability and human motion quality. Additionally, we collect tailored validation sets featuring challenging camera movements and human actions to validate the effectiveness of our method.

Uni3C: Unificazione di Controlli Precisi della Fotocamera Arricchita in 3D e del Movimento Umano per la Generazione di Video

Uni3C: Unifying Precisely 3D-Enhanced Camera and Human Motion Controls for Video Generation

Abstract

Support