CT-1: 시각-언어-카메라 모델이 공간 추론 지식을 카메라 제어 가능 비디오 생성에 전이한다
CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation
April 10, 2026
저자: Haoyu Zhao, Zihao Zhang, Jiaxi Gu, Haoran Chen, Qingping Zheng, Pin Tang, Yeyin Jin, Yuang Zhang, Junqi Cheng, Zenghui Lu, Peng Shu, Zuxuan Wu, Yu-Gang Jiang
cs.AI
초록
카메라 제어 가능 비디오 생성은 유연하고 물리적으로 타당한 카메라 운동으로 비디오를 합성하는 것을 목표로 합니다. 그러나 기존 방법들은 텍스트 프롬프트로부터 부정확한 카메라 제어를 제공하거나 수작업이 많이 필요한 수동 카메라 궤적 매개변수에 의존하여 자동화 시나리오에서의 활용이 제한됩니다. 이러한 문제를 해결하기 위해, 우리는 공간 추론 지식을 비디오 생성에 전이하기 위해 정확한 카메라 궤적 추정을 수행하도록 설계된 전문 모델인 CT-1(Camera Transformer 1)이라는 새로운 Vision-Language-Camera 모델을 제안합니다. Vision-Language 모듈과 Diffusion Transformer 모델을 기반으로 구축된 CT-1은 주파수 영역에서 웨이블릿 기반 정규화 손실을 사용하여 복잡한 카메라 궤적 분포를 효과적으로 학습합니다. 이러한 궤적들은 사용자 의도와 일치하는 공간 인식 카메라 제어를 가능하게 하기 위해 비디오 확산 모델에 통합됩니다. CT-1의 학습을 용이하게 하기 위해, 우리는 전용 데이터 큐레이션 파이프라인을 설계하고 4,700만 프레임 이상을 포함하는 대규모 데이터셋인 CT-200K를 구축했습니다. 실험 결과는 우리의 프레임워크가 공간 추론과 비디오 합성 간의 간극을 성공적으로 연결하여 정확하고 고품질의 카메라 제어 가능 비디오를 생성하며 기존 방법 대비 카메라 제어 정확도를 25.7% 향상시킴을 입증합니다.
English
Camera-controllable video generation aims to synthesize videos with flexible and physically plausible camera movements. However, existing methods either provide imprecise camera control from text prompts or rely on labor-intensive manual camera trajectory parameters, limiting their use in automated scenarios. To address these issues, we propose a novel Vision-Language-Camera model, termed CT-1 (Camera Transformer 1), a specialized model designed to transfer spatial reasoning knowledge to video generation by accurately estimating camera trajectories. Built upon vision-language modules and a Diffusion Transformer model, CT-1 employs a Wavelet-based Regularization Loss in the frequency domain to effectively learn complex camera trajectory distributions. These trajectories are integrated into a video diffusion model to enable spatially aware camera control that aligns with user intentions. To facilitate the training of CT-1, we design a dedicated data curation pipeline and construct CT-200K, a large-scale dataset containing over 47M frames. Experimental results demonstrate that our framework successfully bridges the gap between spatial reasoning and video synthesis, yielding faithful and high-quality camera-controllable videos and improving camera control accuracy by 25.7% over prior methods.