ChatPaper.aiChatPaper

Diffusione Video Collaborativa: Generazione Multi-video Coerente con Controllo della Fotocamera

Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control

May 27, 2024
Autori: Zhengfei Kuang, Shengqu Cai, Hao He, Yinghao Xu, Hongsheng Li, Leonidas Guibas, Gordon Wetzstein
cs.AI

Abstract

La ricerca sulla generazione di video ha recentemente compiuto progressi significativi, consentendo la creazione di video di alta qualità a partire da prompt testuali o immagini. Aggiungere controllo al processo di generazione video è un obiettivo importante per il futuro, e recenti approcci che condizionano i modelli di generazione video su traiettorie della fotocamera stanno facendo passi avanti in questa direzione. Tuttavia, rimane una sfida generare un video della stessa scena da diverse traiettorie della fotocamera. Soluzioni a questo problema di generazione multi-video potrebbero abilitare la creazione su larga scala di scene 3D con traiettorie della fotocamera modificabili, tra altre applicazioni. Introduciamo la Collaborative Video Diffusion (CVD) come un passo importante verso questa visione. Il framework CVD include un nuovo modulo di sincronizzazione cross-video che promuove la coerenza tra i frame corrispondenti dello stesso video resi da diverse pose della fotocamera utilizzando un meccanismo di attenzione epipolare. Addestrato su un modulo di controllo della fotocamera all'avanguardia per la generazione video, CVD genera più video resi da diverse traiettorie della fotocamera con una coerenza significativamente migliore rispetto ai baselines, come dimostrato in esperimenti estensivi. Pagina del progetto: https://collaborativevideodiffusion.github.io/.
English
Research on video generation has recently made tremendous progress, enabling high-quality videos to be generated from text prompts or images. Adding control to the video generation process is an important goal moving forward and recent approaches that condition video generation models on camera trajectories make strides towards it. Yet, it remains challenging to generate a video of the same scene from multiple different camera trajectories. Solutions to this multi-video generation problem could enable large-scale 3D scene generation with editable camera trajectories, among other applications. We introduce collaborative video diffusion (CVD) as an important step towards this vision. The CVD framework includes a novel cross-video synchronization module that promotes consistency between corresponding frames of the same video rendered from different camera poses using an epipolar attention mechanism. Trained on top of a state-of-the-art camera-control module for video generation, CVD generates multiple videos rendered from different camera trajectories with significantly better consistency than baselines, as shown in extensive experiments. Project page: https://collaborativevideodiffusion.github.io/.
PDF120February 8, 2026