Homografia Infinita como Condicionamento Robusto para Geração de Vídeo Controlado por Câmera

Resumo

Os recentes avanços em modelos de difusão de vídeo têm despertado um crescente interesse na geração de vídeos com novas perspectivas controladas por câmera para cenas dinâmicas, visando oferecer aos criadores capacidades de controle cinematográfico de câmera na pós-produção. Um desafio fundamental na geração de vídeos controlados por câmera é garantir a fidelidade à pose da câmera especificada, mantendo a consistência de visualização e raciocinando sobre a geometria ocluída a partir de observações limitadas. Para abordar isso, os métodos existentes ou treinam um modelo de geração de vídeo condicionado por trajetória em um conjunto de dados de pares trajetória-vídeo, ou estimam a profundidade a partir do vídeo de entrada para reprojetá-lo ao longo de uma trajetória alvo e gerar as regiões não projetadas. No entanto, os métodos existentes lutam para gerar vídeos de alta qualidade e fiéis à pose da câmera por duas razões principais: (1) as abordagens baseadas em reprojeção são altamente suscetíveis a erros causados por estimativas imprecisas de profundidade; e (2) a diversidade limitada de trajetórias de câmera nos conjuntos de dados existentes restringe os modelos aprendidos. Para superar essas limitações, apresentamos o InfCam, uma estrutura de geração vídeo-para-vídeo controlada por câmera, livre de profundidade e com alta fidelidade de pose. A estrutura integra dois componentes-chave: (1) o *warping* de homografia infinita, que codifica rotações 3D da câmera diretamente no espaço latente 2D de um modelo de difusão de vídeo. Condicionando nesta informação rotacional livre de ruído, o termo residual de paralaxe é previsto através de treinamento *end-to-end* para alcançar alta fidelidade à pose da câmera; e (2) um *pipeline* de aumento de dados que transforma conjuntos de dados sintéticos multivisão existentes em sequências com trajetórias e distâncias focais diversas. Os resultados experimentais demonstram que o InfCam supera os métodos de referência em precisão da pose da câmera e fidelidade visual, generalizando bem de dados sintéticos para dados do mundo real. Link para nossa página do projeto: https://emjay73.github.io/InfCam/

English

Recent progress in video diffusion models has spurred growing interest in camera-controlled novel-view video generation for dynamic scenes, aiming to provide creators with cinematic camera control capabilities in post-production. A key challenge in camera-controlled video generation is ensuring fidelity to the specified camera pose, while maintaining view consistency and reasoning about occluded geometry from limited observations. To address this, existing methods either train trajectory-conditioned video generation model on trajectory-video pair dataset, or estimate depth from the input video to reproject it along a target trajectory and generate the unprojected regions. Nevertheless, existing methods struggle to generate camera-pose-faithful, high-quality videos for two main reasons: (1) reprojection-based approaches are highly susceptible to errors caused by inaccurate depth estimation; and (2) the limited diversity of camera trajectories in existing datasets restricts learned models. To address these limitations, we present InfCam, a depth-free, camera-controlled video-to-video generation framework with high pose fidelity. The framework integrates two key components: (1) infinite homography warping, which encodes 3D camera rotations directly within the 2D latent space of a video diffusion model. Conditioning on this noise-free rotational information, the residual parallax term is predicted through end-to-end training to achieve high camera-pose fidelity; and (2) a data augmentation pipeline that transforms existing synthetic multiview datasets into sequences with diverse trajectories and focal lengths. Experimental results demonstrate that InfCam outperforms baseline methods in camera-pose accuracy and visual fidelity, generalizing well from synthetic to real-world data. Link to our project page:https://emjay73.github.io/InfCam/

Homografia Infinita como Condicionamento Robusto para Geração de Vídeo Controlado por Câmera

Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation

Resumo

Support