ChatPaper.aiChatPaper

Homonía Infinita como Acondicionamiento Robusto para la Generación de Vídeo Controlado por Cámara

Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation

December 18, 2025
Autores: Min-Jung Kim, Jeongho Kim, Hoiyeong Jin, Junha Hyung, Jaegul Choo
cs.AI

Resumen

Los recientes avances en los modelos de difusión de vídeo han impulsado el creciente interés en la generación de vídeos desde nuevas perspectivas con control de cámara para escenas dinámicas, con el objetivo de proporcionar a los creadores capacidades de control cinematográfico de cámara en la postproducción. Un desafío clave en la generación de vídeo con control de cámara es garantizar la fidelidad a la pose de cámara especificada, manteniendo al mismo tiempo la consistencia de la vista y razonando sobre la geometría ocluida a partir de observaciones limitadas. Para abordarlo, los métodos existentes entrenan un modelo de generación de vídeo condicionado por trayectorias en un conjunto de datos de pares trayectoria-vídeo, o estiman la profundidad a partir del vídeo de entrada para reproyectarlo a lo largo de una trayectoria objetivo y generar las regiones no proyectadas. Sin embargo, los métodos existentes tienen dificultades para generar vídeos de alta calidad y fieles a la pose de la cámara por dos razones principales: (1) los enfoques basados en reproyección son muy susceptibles a errores causados por una estimación de profundidad inexacta; y (2) la diversidad limitada de trayectorias de cámara en los conjuntos de datos existentes restringe los modelos aprendidos. Para superar estas limitaciones, presentamos InfCam, un marco de generación de vídeo a vídeo con control de cámara, libre de estimación de profundidad y con alta fidelidad de pose. El marco integra dos componentes clave: (1) un warping por homografía infinita, que codifica rotaciones 3D de la cámara directamente dentro del espacio latente 2D de un modelo de difusión de vídeo. Condicionando sobre esta información rotacional libre de ruido, el término de paralaje residual se predice mediante entrenamiento de extremo a extremo para lograr una alta fidelidad a la pose de la cámara; y (2) un pipeline de aumento de datos que transforma conjuntos de datos sintéticos multivista existentes en secuencias con trayectorias y distancias focales diversas. Los resultados experimentales demuestran que InfCam supera a los métodos base en precisión de la pose de cámara y fidelidad visual, generalizando bien de datos sintéticos a datos del mundo real. Enlace a nuestra página del proyecto: https://emjay73.github.io/InfCam/
English
Recent progress in video diffusion models has spurred growing interest in camera-controlled novel-view video generation for dynamic scenes, aiming to provide creators with cinematic camera control capabilities in post-production. A key challenge in camera-controlled video generation is ensuring fidelity to the specified camera pose, while maintaining view consistency and reasoning about occluded geometry from limited observations. To address this, existing methods either train trajectory-conditioned video generation model on trajectory-video pair dataset, or estimate depth from the input video to reproject it along a target trajectory and generate the unprojected regions. Nevertheless, existing methods struggle to generate camera-pose-faithful, high-quality videos for two main reasons: (1) reprojection-based approaches are highly susceptible to errors caused by inaccurate depth estimation; and (2) the limited diversity of camera trajectories in existing datasets restricts learned models. To address these limitations, we present InfCam, a depth-free, camera-controlled video-to-video generation framework with high pose fidelity. The framework integrates two key components: (1) infinite homography warping, which encodes 3D camera rotations directly within the 2D latent space of a video diffusion model. Conditioning on this noise-free rotational information, the residual parallax term is predicted through end-to-end training to achieve high camera-pose fidelity; and (2) a data augmentation pipeline that transforms existing synthetic multiview datasets into sequences with diverse trajectories and focal lengths. Experimental results demonstrate that InfCam outperforms baseline methods in camera-pose accuracy and visual fidelity, generalizing well from synthetic to real-world data. Link to our project page:https://emjay73.github.io/InfCam/
PDF265December 24, 2025