Omografia Infinita come Condizionamento Robusto per la Generazione di Video Controllati da Fotocamera
Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation
December 18, 2025
Autori: Min-Jung Kim, Jeongho Kim, Hoiyeong Jin, Junha Hyung, Jaegul Choo
cs.AI
Abstract
I recenti progressi nei modelli di diffusione video hanno stimolato un crescente interesse per la generazione di video da nuove prospettive con controllo della telecamera per scene dinamiche, con l'obiettivo di fornire ai creatori capacità di controllo cinematografico della telecamera in post-produzione. Una sfida chiave nella generazione video con controllo della telecamera è garantire la fedeltà alla posa specificata della telecamera, mantenendo al contempo la coerenza visiva e ragionando sulla geometria occlusa a partire da osservazioni limitate. Per affrontare ciò, i metodi esistenti addestrano modelli di generazione video condizionati da traiettorie su dataset di coppie traiettoria-video, oppure stimano la profondità dal video in input per riproiettarlo lungo una traiettoria target e generare le regioni non proiettate. Tuttavia, i metodi esistenti faticano a generare video di alta qualità e fedeli alla posa della telecamera per due ragioni principali: (1) gli approcci basati sulla riproiezione sono altamente suscettibili a errori causati da stime imprecise della profondità; e (2) la limitata diversità delle traiettorie di telecamera nei dataset esistenti restringe i modelli appresi. Per superare queste limitazioni, presentiamo InfCam, un framework di generazione video-to-video senza stima della profondità e con controllo della telecamera, caratterizzato da alta fedeltà alla posa. Il framework integra due componenti chiave: (1) il warping per omografia infinita, che codifica le rotazioni 3D della telecamera direttamente nello spazio latente 2D di un modello di diffusione video. Condizionando su queste informazioni rotazionali prive di rumore, il termine di parallasse residuo viene previsto attraverso un addestramento end-to-end per raggiungere un'elevata fedeltà alla posa della telecamera; e (2) una pipeline di data augmentation che trasforma i dataset sintetici multiview esistenti in sequenze con traiettorie e lunghezze focali diversificate. I risultati sperimentali dimostrano che InfCam supera i metodi di riferimento in accuratezza della posa della telecamera e fedeltà visiva, generalizzando bene dai dati sintetici a quelli del mondo reale. Link alla nostra pagina progetto: https://emjay73.github.io/InfCam/
English
Recent progress in video diffusion models has spurred growing interest in camera-controlled novel-view video generation for dynamic scenes, aiming to provide creators with cinematic camera control capabilities in post-production. A key challenge in camera-controlled video generation is ensuring fidelity to the specified camera pose, while maintaining view consistency and reasoning about occluded geometry from limited observations. To address this, existing methods either train trajectory-conditioned video generation model on trajectory-video pair dataset, or estimate depth from the input video to reproject it along a target trajectory and generate the unprojected regions. Nevertheless, existing methods struggle to generate camera-pose-faithful, high-quality videos for two main reasons: (1) reprojection-based approaches are highly susceptible to errors caused by inaccurate depth estimation; and (2) the limited diversity of camera trajectories in existing datasets restricts learned models. To address these limitations, we present InfCam, a depth-free, camera-controlled video-to-video generation framework with high pose fidelity. The framework integrates two key components: (1) infinite homography warping, which encodes 3D camera rotations directly within the 2D latent space of a video diffusion model. Conditioning on this noise-free rotational information, the residual parallax term is predicted through end-to-end training to achieve high camera-pose fidelity; and (2) a data augmentation pipeline that transforms existing synthetic multiview datasets into sequences with diverse trajectories and focal lengths. Experimental results demonstrate that InfCam outperforms baseline methods in camera-pose accuracy and visual fidelity, generalizing well from synthetic to real-world data. Link to our project page:https://emjay73.github.io/InfCam/