CT-1: I modelli Visione-Linguaggio-Camera trasferiscono la conoscenza del ragionamento spaziale alla generazione video controllabile da telecamera
CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation
April 10, 2026
Autori: Haoyu Zhao, Zihao Zhang, Jiaxi Gu, Haoran Chen, Qingping Zheng, Pin Tang, Yeyin Jin, Yuang Zhang, Junqi Cheng, Zenghui Lu, Peng Shu, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Abstract
La generazione di video controllabile tramite telecamera mira a sintetizzare video con movimenti di camera flessibili e fisicamente plausibili. Tuttavia, i metodi esistenti forniscono un controllo impreciso della camera tramite prompt testuali o si basano su parametri di traiettoria manuali laboriosi, limitandone l'uso in scenari automatizzati. Per affrontare questi problemi, proponiamo un nuovo modello Visione-Linguaggio-Camera, denominato CT-1 (Camera Transformer 1), un modello specializzato progettato per trasferire la conoscenza del ragionamento spaziale alla generazione video stimando accuratamente le traiettorie della camera. Basato su moduli visione-linguaggio e su un modello Diffusion Transformer, CT-1 impiega una Loss di Regolarizzazione basata su Wavelet nel dominio della frequenza per apprendere efficacemente le distribuzioni complesse delle traiettorie della camera. Queste traiettorie sono integrate in un modello di diffusione video per abilitare un controllo della camera spazialmente consapevole e allineato con le intenzioni dell'utente. Per facilitare l'addestramento di CT-1, abbiamo progettato una pipeline dedicata di curatela dei dati e costruito CT-200K, un dataset su larga scala contenente oltre 47 milioni di fotogrammi. I risultati sperimentali dimostrano che il nostro framework colma con successo il divario tra ragionamento spaziale e sintesi video, producendo video controllabili della camera fedeli e di alta qualità e migliorando l'accuratezza del controllo della camera del 25,7% rispetto ai metodi precedenti.
English
Camera-controllable video generation aims to synthesize videos with flexible and physically plausible camera movements. However, existing methods either provide imprecise camera control from text prompts or rely on labor-intensive manual camera trajectory parameters, limiting their use in automated scenarios. To address these issues, we propose a novel Vision-Language-Camera model, termed CT-1 (Camera Transformer 1), a specialized model designed to transfer spatial reasoning knowledge to video generation by accurately estimating camera trajectories. Built upon vision-language modules and a Diffusion Transformer model, CT-1 employs a Wavelet-based Regularization Loss in the frequency domain to effectively learn complex camera trajectory distributions. These trajectories are integrated into a video diffusion model to enable spatially aware camera control that aligns with user intentions. To facilitate the training of CT-1, we design a dedicated data curation pipeline and construct CT-200K, a large-scale dataset containing over 47M frames. Experimental results demonstrate that our framework successfully bridges the gap between spatial reasoning and video synthesis, yielding faithful and high-quality camera-controllable videos and improving camera control accuracy by 25.7% over prior methods.