Unendlich-Homographie als robuste Konditionierung für kameragesteuerte Videogenerierung
Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation
December 18, 2025
papers.authors: Min-Jung Kim, Jeongho Kim, Hoiyeong Jin, Junha Hyung, Jaegul Choo
cs.AI
papers.abstract
Jüngste Fortschritte bei Video-Diffusionsmodellen haben das wachsende Interesse an kamera-gesteuerter Neuansichts-Videogenerierung für dynamische Szenen beflügelt, mit dem Ziel, Creatives nachträglich cinematische Kamerasteuerungsmöglichkeiten zu bieten. Eine zentrale Herausforderung bei der kamera-gesteuerten Videogenerierung besteht darin, die Treue zur vorgegebenen Kamerapose sicherzustellen, während Blickkonsistenz erhalten und verdeckte Geometrie aus begrenzten Beobachtungen erschlossen wird. Bisherige Methoden trainieren entweder trajektorien-konditionierte Videogenerierungsmodelle auf Trajektorien-Video-Paar-Datensätzen oder schätzen die Tiefe aus dem Eingabevideo, um es entlang einer Zieltrajektorie zu reprojizieren und die unprojizierten Bereiche zu generieren. Dennoch scheitern bestehende Methoden an der Erzeugung kamera-posentreuer, hochwertiger Videos aus zwei Hauptgründen: (1) reprojektionsbasierte Ansätze sind stark anfällig für Fehler durch ungenaue Tiefenschätzung; und (2) die begrenzte Vielfalt von Kameratrajektorien in existierenden Datensätzen schränkt trainierte Modelle ein. Um diese Einschränkungen zu überwinden, präsentieren wir InfCam, ein tiefenfreies, kamera-gesteuertes Video-zu-Video-Generierungsframework mit hoher Posentreue. Das Framework integriert zwei Schlüsselkomponenten: (1) unendliche Homographie-Verzerrung, die 3D-Kamerarotationen direkt im 2D-Latenzraum eines Video-Diffusionsmodells kodiert. Durch Konditionierung auf diese rauschfreie Rotationsinformation wird der residuale Parallaxenterm per End-to-End-Training vorhergesagt, um hohe Kameraposentreue zu erreichen; und (2) eine Datenaugmentations-Pipeline, die bestehende synthetische Multiview-Datensätze in Sequenzen mit diversen Trajektorien und Brennweiten transformiert. Experimentelle Ergebnisse zeigen, dass InfCam Baseline-Methoden in Kameraposengenauigkeit und visueller Treue übertrifft und gut von synthetischen auf reale Daten generalisiert. Link zu unserer Projektseite: https://emjay73.github.io/InfCam/
English
Recent progress in video diffusion models has spurred growing interest in camera-controlled novel-view video generation for dynamic scenes, aiming to provide creators with cinematic camera control capabilities in post-production. A key challenge in camera-controlled video generation is ensuring fidelity to the specified camera pose, while maintaining view consistency and reasoning about occluded geometry from limited observations. To address this, existing methods either train trajectory-conditioned video generation model on trajectory-video pair dataset, or estimate depth from the input video to reproject it along a target trajectory and generate the unprojected regions. Nevertheless, existing methods struggle to generate camera-pose-faithful, high-quality videos for two main reasons: (1) reprojection-based approaches are highly susceptible to errors caused by inaccurate depth estimation; and (2) the limited diversity of camera trajectories in existing datasets restricts learned models. To address these limitations, we present InfCam, a depth-free, camera-controlled video-to-video generation framework with high pose fidelity. The framework integrates two key components: (1) infinite homography warping, which encodes 3D camera rotations directly within the 2D latent space of a video diffusion model. Conditioning on this noise-free rotational information, the residual parallax term is predicted through end-to-end training to achieve high camera-pose fidelity; and (2) a data augmentation pipeline that transforms existing synthetic multiview datasets into sequences with diverse trajectories and focal lengths. Experimental results demonstrate that InfCam outperforms baseline methods in camera-pose accuracy and visual fidelity, generalizing well from synthetic to real-world data. Link to our project page:https://emjay73.github.io/InfCam/