CT-1: Los Modelos Visión-Lenguaje-Cámara Transfieren Conocimiento de Razonamiento Espacial a la Generación de Videos con Control de Cámara

Resumen

La generación de vídeo controlable por cámara tiene como objetivo sintetizar vídeos con movimientos de cámara flexibles y físicamente plausibles. Sin embargo, los métodos existentes ofrecen un control de cámara impreciso a partir de indicaciones textuales o dependen de parámetros manuales de trayectoria de cámara que requieren mucha mano de obra, lo que limita su uso en escenarios automatizados. Para abordar estos problemas, proponemos un novedoso modelo Visión-Lenguaje-Cámara, denominado CT-1 (Camera Transformer 1), un modelo especializado diseñado para transferir conocimiento de razonamiento espacial a la generación de vídeos mediante la estimación precisa de trayectorias de cámara. Construido sobre módulos de visión-lenguaje y un modelo Transformer de Difusión, CT-1 emplea una Pérdida de Regularización Basada en Wavelets en el dominio de la frecuencia para aprender eficazmente distribuciones complejas de trayectorias de cámara. Estas trayectorias se integran en un modelo de difusión de vídeo para permitir un control de cámara espacialmente consciente que se alinee con las intenciones del usuario. Para facilitar el entrenamiento de CT-1, diseñamos un pipeline dedicado de curación de datos y construimos CT-200K, un conjunto de datos a gran escala que contiene más de 47M de fotogramas. Los resultados experimentales demuestran que nuestro marco logra cerrar la brecha entre el razonamiento espacial y la síntesis de vídeo, produciendo vídeos controlables por cámara fieles y de alta calidad, y mejorando la precisión del control de cámara en un 25.7% respecto a métodos anteriores.

English

Camera-controllable video generation aims to synthesize videos with flexible and physically plausible camera movements. However, existing methods either provide imprecise camera control from text prompts or rely on labor-intensive manual camera trajectory parameters, limiting their use in automated scenarios. To address these issues, we propose a novel Vision-Language-Camera model, termed CT-1 (Camera Transformer 1), a specialized model designed to transfer spatial reasoning knowledge to video generation by accurately estimating camera trajectories. Built upon vision-language modules and a Diffusion Transformer model, CT-1 employs a Wavelet-based Regularization Loss in the frequency domain to effectively learn complex camera trajectory distributions. These trajectories are integrated into a video diffusion model to enable spatially aware camera control that aligns with user intentions. To facilitate the training of CT-1, we design a dedicated data curation pipeline and construct CT-200K, a large-scale dataset containing over 47M frames. Experimental results demonstrate that our framework successfully bridges the gap between spatial reasoning and video synthesis, yielding faithful and high-quality camera-controllable videos and improving camera control accuracy by 25.7% over prior methods.

CT-1: Los Modelos Visión-Lenguaje-Cámara Transfieren Conocimiento de Razonamiento Espacial a la Generación de Videos con Control de Cámara

CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation

Resumen

Support