Homographie Infinie comme Conditionnement Robuste pour la Génération de Vidéo Contrôlée par Caméra
Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation
December 18, 2025
papers.authors: Min-Jung Kim, Jeongho Kim, Hoiyeong Jin, Junha Hyung, Jaegul Choo
cs.AI
papers.abstract
Les progrès récents des modèles de diffusion vidéo ont suscité un intérêt croissant pour la génération de vidéos sous contrôle de caméra offrant de nouveaux points de vue sur des scènes dynamiques, visant à fournir aux créateurs des capacités de contrôle cinématographique en post-production. Un défi majeur dans la génération vidéo contrôlée par caméra est d'assurer la fidélité à la pose de caméra spécifiée, tout en maintenant la cohérence des vues et en raisonnant sur la géométrie occluse à partir d'observations limitées. Pour y remédier, les méthodes existantes entraînent soit un modèle de génération vidéo conditionné par trajectoire sur un jeu de données de paires trajectoire-vidéo, soit estiment la profondeur à partir de la vidéo d'entrée pour la reprojeter le long d'une trajectoire cible et générer les régions non projetées. Néanmoins, les méthodes existantes peinent à générer des vidéos de haute qualité fidèles à la pose de caméra pour deux raisons principales : (1) les approches basées sur la reprojection sont très sensibles aux erreurs causées par l'estimation imprécise de la profondeur ; et (2) la diversité limitée des trajectoires de caméra dans les jeux de données existants restreint les modèles appris. Pour pallier ces limitations, nous présentons InfCam, un cadre de génération vidéo-à-vidéo sans profondeur et contrôlé par caméra, offrant une haute fidélité de pose. Le framework intègre deux composants clés : (1) un warping par homographie infinie, qui encode les rotations 3D de la caméra directement dans l'espace latent 2D d'un modèle de diffusion vidéo. En se conditionnant sur cette information rotationnelle exempte de bruit, le terme de parallaxe résiduel est prédit par un apprentissage de bout en bout pour atteindre une haute fidélité à la pose de caméra ; et (2) un pipeline d'augmentation de données qui transforme les jeux de données synthétiques multivues existants en séquences présentant des trajectoires et des longueurs focales variées. Les résultats expérimentaux démontrent qu'InfCam surpasse les méthodes de référence en précision de pose de caméra et en fidélité visuelle, généralisant bien des données synthétiques aux données réelles. Lien vers notre page projet : https://emjay73.github.io/InfCam/
English
Recent progress in video diffusion models has spurred growing interest in camera-controlled novel-view video generation for dynamic scenes, aiming to provide creators with cinematic camera control capabilities in post-production. A key challenge in camera-controlled video generation is ensuring fidelity to the specified camera pose, while maintaining view consistency and reasoning about occluded geometry from limited observations. To address this, existing methods either train trajectory-conditioned video generation model on trajectory-video pair dataset, or estimate depth from the input video to reproject it along a target trajectory and generate the unprojected regions. Nevertheless, existing methods struggle to generate camera-pose-faithful, high-quality videos for two main reasons: (1) reprojection-based approaches are highly susceptible to errors caused by inaccurate depth estimation; and (2) the limited diversity of camera trajectories in existing datasets restricts learned models. To address these limitations, we present InfCam, a depth-free, camera-controlled video-to-video generation framework with high pose fidelity. The framework integrates two key components: (1) infinite homography warping, which encodes 3D camera rotations directly within the 2D latent space of a video diffusion model. Conditioning on this noise-free rotational information, the residual parallax term is predicted through end-to-end training to achieve high camera-pose fidelity; and (2) a data augmentation pipeline that transforms existing synthetic multiview datasets into sequences with diverse trajectories and focal lengths. Experimental results demonstrate that InfCam outperforms baseline methods in camera-pose accuracy and visual fidelity, generalizing well from synthetic to real-world data. Link to our project page:https://emjay73.github.io/InfCam/