CT-1: Modelos Visão-Linguagem-Câmera Transferem Conhecimento de Raciocínio Espacial para Geração de Vídeo Controlável por Câmera

Resumo

A geração de vídeo controlável por câmara visa sintetizar vídeos com movimentos de câmara flexíveis e fisicamente plausíveis. No entanto, os métodos existentes ou fornecem controlo de câmara impreciso a partir de instruções textuais ou dependem de parâmetros de trajetória de câmara manuais e laboriosos, limitando a sua utilização em cenários automatizados. Para resolver estas questões, propomos um novo modelo Visão-Linguagem-Câmara, denominado CT-1 (Camera Transformer 1), um modelo especializado concebido para transferir conhecimento de raciocínio espacial para a geração de vídeo, através da estimativa precisa de trajetórias de câmara. Construído com base em módulos de visão-linguagem e num modelo Diffusion Transformer, o CT-1 emprega uma Perda de Regularização Baseada em Wavelet no domínio da frequência para aprender eficazmente distribuições complexas de trajetórias de câmara. Estas trajetórias são integradas num modelo de difusão de vídeo para permitir um controlo de câmara espacialmente consciente que se alinha com as intenções do utilizador. Para facilitar o treino do CT-1, concebemos um pipeline dedicado de curadoria de dados e construímos o CT-200K, um conjunto de dados de larga escala contendo mais de 47M de frames. Os resultados experimentais demonstram que a nossa estrutura preenche com sucesso a lacuna entre o raciocínio espacial e a síntese de vídeo, produzindo vídeos controláveis por câmara fiéis e de alta qualidade, e melhorando a precisão do controlo de câmara em 25,7% em relação a métodos anteriores.

English

Camera-controllable video generation aims to synthesize videos with flexible and physically plausible camera movements. However, existing methods either provide imprecise camera control from text prompts or rely on labor-intensive manual camera trajectory parameters, limiting their use in automated scenarios. To address these issues, we propose a novel Vision-Language-Camera model, termed CT-1 (Camera Transformer 1), a specialized model designed to transfer spatial reasoning knowledge to video generation by accurately estimating camera trajectories. Built upon vision-language modules and a Diffusion Transformer model, CT-1 employs a Wavelet-based Regularization Loss in the frequency domain to effectively learn complex camera trajectory distributions. These trajectories are integrated into a video diffusion model to enable spatially aware camera control that aligns with user intentions. To facilitate the training of CT-1, we design a dedicated data curation pipeline and construct CT-200K, a large-scale dataset containing over 47M frames. Experimental results demonstrate that our framework successfully bridges the gap between spatial reasoning and video synthesis, yielding faithful and high-quality camera-controllable videos and improving camera control accuracy by 25.7% over prior methods.

CT-1: Modelos Visão-Linguagem-Câmera Transferem Conhecimento de Raciocínio Espacial para Geração de Vídeo Controlável por Câmera

CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation

Resumo

Support