CT-1: Модели "Зрение-Язык-Камера" переносят знания о пространственных рассуждениях в управляемую камерой генерацию видео

Аннотация

Генерация видео с управляемой камерой направлена на синтез видеороликов с гибкими и физически правдоподобными движениями камеры. Однако существующие методы либо предоставляют неточное управление камерой на основе текстовых описаний, либо полагаются на трудоемкие ручные параметры траектории камеры, что ограничивает их применение в автоматизированных сценариях. Для решения этих проблем мы предлагаем новую модель «Vision-Language-Camera» под названием CT-1 (Camera Transformer 1) — специализированную модель, предназначенную для передачи знаний о пространственном мышлении в задачу генерации видео путем точного оценивания траекторий камеры. Построенная на основе модулей компьютерного зрения и обработки естественного языка, а также модели Diffusion Transformer, CT-1 использует вейвлет-регуляризационную функцию потерь в частотной области для эффективного изучения сложных распределений траекторий камеры. Эти траектории интегрируются в модель диффузии видео для обеспечения пространственно-осознанного управления камерой, согласованного с намерениями пользователя. Для облегчения обучения CT-1 мы разработали специализированный пайплайн курации данных и создали CT-200K — масштабный набор данных, содержащий свыше 47 миллионов кадров. Результаты экспериментов демонстрируют, что наш подход успешно преодолевает разрыв между пространственным мышлением и синтезом видео, обеспечивая создание достоверных и качественных видео с управляемой камерой и повышая точность управления камерой на 25,7% по сравнению с предыдущими методами.

English

Camera-controllable video generation aims to synthesize videos with flexible and physically plausible camera movements. However, existing methods either provide imprecise camera control from text prompts or rely on labor-intensive manual camera trajectory parameters, limiting their use in automated scenarios. To address these issues, we propose a novel Vision-Language-Camera model, termed CT-1 (Camera Transformer 1), a specialized model designed to transfer spatial reasoning knowledge to video generation by accurately estimating camera trajectories. Built upon vision-language modules and a Diffusion Transformer model, CT-1 employs a Wavelet-based Regularization Loss in the frequency domain to effectively learn complex camera trajectory distributions. These trajectories are integrated into a video diffusion model to enable spatially aware camera control that aligns with user intentions. To facilitate the training of CT-1, we design a dedicated data curation pipeline and construct CT-200K, a large-scale dataset containing over 47M frames. Experimental results demonstrate that our framework successfully bridges the gap between spatial reasoning and video synthesis, yielding faithful and high-quality camera-controllable videos and improving camera control accuracy by 25.7% over prior methods.

CT-1: Модели "Зрение-Язык-Камера" переносят знания о пространственных рассуждениях в управляемую камерой генерацию видео

CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation

Аннотация

Support