CamCo: Generazione Video da Immagine 3D-Consistente Controllabile tramite Fotocamera
CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation
June 4, 2024
Autori: Dejia Xu, Weili Nie, Chao Liu, Sifei Liu, Jan Kautz, Zhangyang Wang, Arash Vahdat
cs.AI
Abstract
Recentemente, i modelli di diffusione video sono emersi come strumenti generativi espressivi per la creazione di contenuti video di alta qualità, facilmente accessibili agli utenti comuni. Tuttavia, questi modelli spesso non offrono un controllo preciso sulle pose della telecamera per la generazione di video, limitando l'espressione del linguaggio cinematografico e il controllo dell'utente. Per affrontare questo problema, introduciamo CamCo, che consente un controllo fine delle pose della telecamera per la generazione di video da immagini. Dotiamo un generatore pre-addestrato da immagine a video di un input di pose della telecamera accuratamente parametrizzato utilizzando le coordinate di Plücker. Per migliorare la coerenza 3D nei video prodotti, integriamo un modulo di attenzione epipolare in ogni blocco di attenzione che applica vincoli epipolari alle mappe di caratteristiche. Inoltre, ottimizziamo CamCo su video del mondo reale con pose della telecamera stimate attraverso algoritmi di struttura da movimento per sintetizzare meglio il movimento degli oggetti. I nostri esperimenti dimostrano che CamCo migliora significativamente la coerenza 3D e le capacità di controllo della telecamera rispetto ai modelli precedenti, generando efficacemente un movimento plausibile degli oggetti. Pagina del progetto: https://ir1d.github.io/CamCo/
English
Recently video diffusion models have emerged as expressive generative tools
for high-quality video content creation readily available to general users.
However, these models often do not offer precise control over camera poses for
video generation, limiting the expression of cinematic language and user
control. To address this issue, we introduce CamCo, which allows fine-grained
Camera pose Control for image-to-video generation. We equip a pre-trained
image-to-video generator with accurately parameterized camera pose input using
Pl\"ucker coordinates. To enhance 3D consistency in the videos produced, we
integrate an epipolar attention module in each attention block that enforces
epipolar constraints to the feature maps. Additionally, we fine-tune CamCo on
real-world videos with camera poses estimated through structure-from-motion
algorithms to better synthesize object motion. Our experiments show that CamCo
significantly improves 3D consistency and camera control capabilities compared
to previous models while effectively generating plausible object motion.
Project page: https://ir1d.github.io/CamCo/