CT-1: Vision-Language-Kamera-Modelle übertragen räumliches Schlussfolgerungswissen auf kamerasteuerbare Videogenerierung
CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation
April 10, 2026
Autoren: Haoyu Zhao, Zihao Zhang, Jiaxi Gu, Haoran Chen, Qingping Zheng, Pin Tang, Yeyin Jin, Yuang Zhang, Junqi Cheng, Zenghui Lu, Peng Shu, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Zusammenfassung
Kamerasteuerbare Videogenerierung zielt darauf ab, Videos mit flexiblen und physikalisch plausiblen Kamerabewegungen zu synthetisieren. Bisherige Methoden bieten jedoch entweder eine unpräzise Kamerasteuerung über Textprompts oder sind auf arbeitsintensive manuelle Kameratrajektorien-Parameter angewiesen, was ihren Einsatz in automatisierten Szenarien einschränkt. Um diese Probleme zu lösen, stellen wir ein neuartiges Vision-Sprache-Kamera-Modell vor, genannt CT-1 (Camera Transformer 1), ein spezialisiertes Modell, das darauf ausgelegt ist, räumliches Reasoning-Wissen auf die Videogenerierung zu übertragen, indem es Kameratrajektorien präzise schätzt. Aufbauend auf Vision-Language-Modulen und einem Diffusion-Transformer-Modell verwendet CT-1 einen waveletbasierten Regularisierungsverlust im Frequenzbereich, um komplexe Kameratrajektorien-Verteilungen effektiv zu erlernen. Diese Trajektorien werden in ein Video-Diffusionsmodell integriert, um eine raumbewusste Kamerasteuerung zu ermöglichen, die mit den Benutzerabsichten übereinstimmt. Um das Training von CT-1 zu ermöglichen, haben wir eine spezielle Datenaufbereitungspipeline entwickelt und CT-200K erstellt, einen großen Datensatz mit über 47 Millionen Einzelbildern. Experimentelle Ergebnisse zeigen, dass unser Framework die Lücke zwischen räumlichem Reasoning und Videosynthese erfolgreich schließt, zuverlässige und hochwertige kamerasteuerbare Videos erzeugt und die Genauigkeit der Kamerasteuerung im Vergleich zu bisherigen Methoden um 25,7 % verbessert.
English
Camera-controllable video generation aims to synthesize videos with flexible and physically plausible camera movements. However, existing methods either provide imprecise camera control from text prompts or rely on labor-intensive manual camera trajectory parameters, limiting their use in automated scenarios. To address these issues, we propose a novel Vision-Language-Camera model, termed CT-1 (Camera Transformer 1), a specialized model designed to transfer spatial reasoning knowledge to video generation by accurately estimating camera trajectories. Built upon vision-language modules and a Diffusion Transformer model, CT-1 employs a Wavelet-based Regularization Loss in the frequency domain to effectively learn complex camera trajectory distributions. These trajectories are integrated into a video diffusion model to enable spatially aware camera control that aligns with user intentions. To facilitate the training of CT-1, we design a dedicated data curation pipeline and construct CT-200K, a large-scale dataset containing over 47M frames. Experimental results demonstrate that our framework successfully bridges the gap between spatial reasoning and video synthesis, yielding faithful and high-quality camera-controllable videos and improving camera control accuracy by 25.7% over prior methods.