Oneindige-Homografie als Robuuste Conditionering voor Camera-Gestuurde Videogeneratie
Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation
December 18, 2025
Auteurs: Min-Jung Kim, Jeongho Kim, Hoiyeong Jin, Junha Hyung, Jaegul Choo
cs.AI
Samenvatting
Recente vooruitgang in videodiffusiemodellen heeft een groeiende interesse gewekt in camera-gestuurde novel-view videogeneratie voor dynamische scènes, met als doel makers cinematografische camerabesturingsmogelijkheden te bieden in de postproductie. Een belangrijke uitdaging bij camera-gestuurde videogeneratie is het waarborgen van trouw aan de gespecificeerde camerapositie, terwijl viewconsistentie behouden blijft en occluded geometrie wordt afgeleid uit beperkte observaties. Om dit aan te pakken, trainen bestaande methodes ofwel een traject-geconditioneerd videogeneratiemodel op een dataset van traject-videoparen, of schatten ze diepte uit de invoervideo om deze te reprojecteren langs een doeltraject en de niet-geprojecteerde gebieden te genereren. Desalniettemin worstelen bestaande methodes met het genereren van camera-positie-getrouwe, hoogwaardige video's om twee hoofdredenen: (1) op reprojectie gebaseerde benaderingen zijn zeer gevoelig voor fouten veroorzaakt door onnauwkeurige diepteschatting; en (2) de beperkte diversiteit aan cameratrajecten in bestaande datasets beperkt geleerde modellen. Om deze beperkingen aan te pakken, presenteren we InfCam, een dieptevrij, camera-gestuurd video-naar-video generatieraamwerk met hoge positiegetrouwheid. Het raamwerk integreert twee kernelementen: (1) infinite homography warping, dat 3D-camerarotaties direct codeert binnen de 2D-latente ruimte van een videodiffusiemodel. Door conditionering op deze ruisvrije rotatie-informatie wordt de residuele parallaxterm voorspeld via end-to-end training om hoge camera-positiegetrouwheid te bereiken; en (2) een data-augmentatiepijplijn die bestaande synthetische multiview-datasets omzet in sequenties met diverse trajecten en brandpuntsafstanden. Experimentele resultaten tonen aan dat InfCam baseline-methodes overtreft in camerapositienauwkeurigheid en visuele getrouwheid, en goed generaliseert van synthetische naar real-world data. Link naar onze projectpagina: https://emjay73.github.io/InfCam/
English
Recent progress in video diffusion models has spurred growing interest in camera-controlled novel-view video generation for dynamic scenes, aiming to provide creators with cinematic camera control capabilities in post-production. A key challenge in camera-controlled video generation is ensuring fidelity to the specified camera pose, while maintaining view consistency and reasoning about occluded geometry from limited observations. To address this, existing methods either train trajectory-conditioned video generation model on trajectory-video pair dataset, or estimate depth from the input video to reproject it along a target trajectory and generate the unprojected regions. Nevertheless, existing methods struggle to generate camera-pose-faithful, high-quality videos for two main reasons: (1) reprojection-based approaches are highly susceptible to errors caused by inaccurate depth estimation; and (2) the limited diversity of camera trajectories in existing datasets restricts learned models. To address these limitations, we present InfCam, a depth-free, camera-controlled video-to-video generation framework with high pose fidelity. The framework integrates two key components: (1) infinite homography warping, which encodes 3D camera rotations directly within the 2D latent space of a video diffusion model. Conditioning on this noise-free rotational information, the residual parallax term is predicted through end-to-end training to achieve high camera-pose fidelity; and (2) a data augmentation pipeline that transforms existing synthetic multiview datasets into sequences with diverse trajectories and focal lengths. Experimental results demonstrate that InfCam outperforms baseline methods in camera-pose accuracy and visual fidelity, generalizing well from synthetic to real-world data. Link to our project page:https://emjay73.github.io/InfCam/