CT-1: Vision-Taal-Camera Modellen Transfereren Ruimtelijk Redeneerkennis naar Camera-Bestuurbare Videogeneratie
CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation
April 10, 2026
Auteurs: Haoyu Zhao, Zihao Zhang, Jiaxi Gu, Haoran Chen, Qingping Zheng, Pin Tang, Yeyin Jin, Yuang Zhang, Junqi Cheng, Zenghui Lu, Peng Shu, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Samenvatting
Camera-bestuurbare videogeneratie heeft als doel video's te synthetiseren met flexibele en fysisch plausibele camerabewegingen. Bestaande methoden bieden echter ofwel onnauwkeurige camerabesturing via tekstprompts of zijn afhankelijk van arbeidsintensieve handmatige cameratrajectparameters, wat hun toepassing in geautomatiseerde scenario's beperkt. Om deze problemen aan te pakken, presenteren we een nieuw Vision-Language-Camera model, genaamd CT-1 (Camera Transformer 1), een gespecialiseerd model ontworpen om ruimtelijk redeneerkennis over te dragen naar videogeneratie door cameratrajecten nauwkeurig te schatten. Gebouwd op vision-language modules en een Diffusion Transformer-model, gebruikt CT-1 een Wavelet-gebaseerd Regularisatieverlies in het frequentiedomein om complexe cameratrajectverdelingen effectief aan te leren. Deze trajecten worden geïntegreerd in een videodiffusiemodel om ruimtelijk bewuste camerabesturing mogelijk te maken die aansluit bij gebruikersintenties. Om de training van CT-1 te vergemakkelijken, hebben we een toegewijd data-curatiepipeline ontworpen en CT-200K samengesteld, een grootschalige dataset met meer dan 47 miljoen frames. Experimentele resultaten tonen aan dat ons framework de kloof tussen ruimtelijk redeneren en videosynthese succesvol overbrugt, waarbij het getrouwe en hoogwaardige camera-bestuurbare video's oplevert en de nauwkeurigheid van camerabesturing met 25,7% verbetert ten opzichte van eerdere methoden.
English
Camera-controllable video generation aims to synthesize videos with flexible and physically plausible camera movements. However, existing methods either provide imprecise camera control from text prompts or rely on labor-intensive manual camera trajectory parameters, limiting their use in automated scenarios. To address these issues, we propose a novel Vision-Language-Camera model, termed CT-1 (Camera Transformer 1), a specialized model designed to transfer spatial reasoning knowledge to video generation by accurately estimating camera trajectories. Built upon vision-language modules and a Diffusion Transformer model, CT-1 employs a Wavelet-based Regularization Loss in the frequency domain to effectively learn complex camera trajectory distributions. These trajectories are integrated into a video diffusion model to enable spatially aware camera control that aligns with user intentions. To facilitate the training of CT-1, we design a dedicated data curation pipeline and construct CT-200K, a large-scale dataset containing over 47M frames. Experimental results demonstrate that our framework successfully bridges the gap between spatial reasoning and video synthesis, yielding faithful and high-quality camera-controllable videos and improving camera control accuracy by 25.7% over prior methods.