ChatPaper.aiChatPaper

카메라 제어 비디오 생성을 위한 강건한 조건 설정으로서의 무한 호모그래피

Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation

December 18, 2025
저자: Min-Jung Kim, Jeongho Kim, Hoiyeong Jin, Junha Hyung, Jaegul Choo
cs.AI

초록

최근 비디오 확산 모델의 발전으로 동적 장면에 대한 카메라 제어 신시점 비디오 생성에 대한 관심이 높아지고 있으며, 이는 제작자에게 포스트 프로덕션 단계에서 시네마틱 카메라 제어 기능을 제공하는 것을 목표로 합니다. 카메라 제어 비디오 생성의 핵심 과제는 지정된 카메라 포즈에 대한 정확성을 보장하면서 시점 일관성을 유지하고 제한된 관찰만으로 가려진 기하구조를 추론하는 것입니다. 이를 해결하기 위해 기존 방법들은 궤적-비디오 쌍 데이터셋으로 궤적 조건부 비디오 생성 모델을 훈련하거나, 입력 비디오에서 깊이를 추정하여 목표 궤적을 따라 재투영하고 재투영되지 않은 영역을 생성합니다. 그러나 기존 방법들은 두 가지 주요 이유로 카메라 포즈에 충실한 고품질 비디오 생성에 어려움을 겪습니다: (1) 재투영 기반 접근법은 부정확한 깊이 추정으로 인한 오류에 매우 취약하며, (2) 기존 데이터셋의 제한된 카메라 궤적 다양성이 학습된 모델의 성능을 제한합니다. 이러한 한계를 해결하기 위해 우리는 높은 포즈 정확도를 갖춘 깊이 정보 불필요(depth-free) 카메라 제어 비디오-투-비디오 생성 프레임워크인 InfCam을 제안합니다. 이 프레임워크는 두 가지 핵심 구성 요소를 통합합니다: (1) 비디오 확산 모델의 2D 잠재 공간 내에서 3D 카메라 회전을 직접 인코딩하는 무한 호모그래피 워핑(infinite homography warping). 이 잡음이 없는 회전 정보를 조건으로 삼아, end-to-end 훈련을 통해 잔여 시차(parallax) 항을 예측하여 높은 카메라 포즈 정확도를 달성합니다. (2) 기존 합성 다중 시점 데이터셋을 다양한 궤적과 초점 거리를 가진 시퀀스로 변환하는 데이터 증강 파이프라인. 실험 결과는 InfCam이 카메라 포즈 정확도와 시각적 충실도에서 기준 방법들을 능가하며, 합성 데이터에서 실제 데이터로 잘 일반화됨을 보여줍니다. 프로젝트 페이지 링크: https://emjay73.github.io/InfCam/
English
Recent progress in video diffusion models has spurred growing interest in camera-controlled novel-view video generation for dynamic scenes, aiming to provide creators with cinematic camera control capabilities in post-production. A key challenge in camera-controlled video generation is ensuring fidelity to the specified camera pose, while maintaining view consistency and reasoning about occluded geometry from limited observations. To address this, existing methods either train trajectory-conditioned video generation model on trajectory-video pair dataset, or estimate depth from the input video to reproject it along a target trajectory and generate the unprojected regions. Nevertheless, existing methods struggle to generate camera-pose-faithful, high-quality videos for two main reasons: (1) reprojection-based approaches are highly susceptible to errors caused by inaccurate depth estimation; and (2) the limited diversity of camera trajectories in existing datasets restricts learned models. To address these limitations, we present InfCam, a depth-free, camera-controlled video-to-video generation framework with high pose fidelity. The framework integrates two key components: (1) infinite homography warping, which encodes 3D camera rotations directly within the 2D latent space of a video diffusion model. Conditioning on this noise-free rotational information, the residual parallax term is predicted through end-to-end training to achieve high camera-pose fidelity; and (2) a data augmentation pipeline that transforms existing synthetic multiview datasets into sequences with diverse trajectories and focal lengths. Experimental results demonstrate that InfCam outperforms baseline methods in camera-pose accuracy and visual fidelity, generalizing well from synthetic to real-world data. Link to our project page:https://emjay73.github.io/InfCam/
PDF265December 24, 2025