CamCo: Generazione Video da Immagine 3D-Consistente Controllabile tramite Fotocamera

Abstract

Recentemente, i modelli di diffusione video sono emersi come strumenti generativi espressivi per la creazione di contenuti video di alta qualità, facilmente accessibili agli utenti comuni. Tuttavia, questi modelli spesso non offrono un controllo preciso sulle pose della telecamera per la generazione di video, limitando l'espressione del linguaggio cinematografico e il controllo dell'utente. Per affrontare questo problema, introduciamo CamCo, che consente un controllo fine delle pose della telecamera per la generazione di video da immagini. Dotiamo un generatore pre-addestrato da immagine a video di un input di pose della telecamera accuratamente parametrizzato utilizzando le coordinate di Plücker. Per migliorare la coerenza 3D nei video prodotti, integriamo un modulo di attenzione epipolare in ogni blocco di attenzione che applica vincoli epipolari alle mappe di caratteristiche. Inoltre, ottimizziamo CamCo su video del mondo reale con pose della telecamera stimate attraverso algoritmi di struttura da movimento per sintetizzare meglio il movimento degli oggetti. I nostri esperimenti dimostrano che CamCo migliora significativamente la coerenza 3D e le capacità di controllo della telecamera rispetto ai modelli precedenti, generando efficacemente un movimento plausibile degli oggetti. Pagina del progetto: https://ir1d.github.io/CamCo/

English

Recently video diffusion models have emerged as expressive generative tools for high-quality video content creation readily available to general users. However, these models often do not offer precise control over camera poses for video generation, limiting the expression of cinematic language and user control. To address this issue, we introduce CamCo, which allows fine-grained Camera pose Control for image-to-video generation. We equip a pre-trained image-to-video generator with accurately parameterized camera pose input using Pl\"ucker coordinates. To enhance 3D consistency in the videos produced, we integrate an epipolar attention module in each attention block that enforces epipolar constraints to the feature maps. Additionally, we fine-tune CamCo on real-world videos with camera poses estimated through structure-from-motion algorithms to better synthesize object motion. Our experiments show that CamCo significantly improves 3D consistency and camera control capabilities compared to previous models while effectively generating plausible object motion. Project page: https://ir1d.github.io/CamCo/

CamCo: Generazione Video da Immagine 3D-Consistente Controllabile tramite Fotocamera

CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation

Abstract

Support