CT-1 : Les modèles vision-langue-caméra transfèrent les connaissances en raisonnement spatial vers la génération de vidéo à caméra contrôlable

Résumé

La génération de vidéos contrôlable par caméra vise à synthétiser des séquences vidéo avec des mouvements de caméra flexibles et physiquement plausibles. Cependant, les méthodes existantes offrent soit un contrôle imprécis de la caméra à partir d'invites textuelles, soit reposent sur des paramètres de trajectoire manuels fastidieux, limitant leur utilisation dans des scénarios automatisés. Pour résoudre ces problèmes, nous proposons un nouveau modèle Vision-Langage-Caméra, nommé CT-1 (Camera Transformer 1), un modèle spécialisé conçu pour transférer des connaissances de raisonnement spatial à la génération vidéo en estimant précisément les trajectoires de caméra. Construit sur des modules vision-langage et un modèle Diffusion Transformer, CT-1 utilise une fonction de perte de régularisation par ondelettes dans le domaine fréquentiel pour apprendre efficacement les distributions complexes des trajectoires de caméra. Ces trajectoires sont intégrées dans un modèle de diffusion vidéo pour permettre un contrôle de caméra spatialement conscient qui s'aligne avec les intentions de l'utilisateur. Pour faciliter l'entraînement de CT-1, nous concevons un pipeline dédié de curation de données et construisons CT-200K, un jeu de données à grande échelle contenant plus de 47 millions d'images. Les résultats expérimentaux démontrent que notre cadre réussit à combler le fossé entre le raisonnement spatial et la synthèse vidéo, produisant des vidéos contrôlables par caméra fidèles et de haute qualité, et améliorant la précision du contrôle de la caméra de 25,7 % par rapport aux méthodes antérieures.

English

Camera-controllable video generation aims to synthesize videos with flexible and physically plausible camera movements. However, existing methods either provide imprecise camera control from text prompts or rely on labor-intensive manual camera trajectory parameters, limiting their use in automated scenarios. To address these issues, we propose a novel Vision-Language-Camera model, termed CT-1 (Camera Transformer 1), a specialized model designed to transfer spatial reasoning knowledge to video generation by accurately estimating camera trajectories. Built upon vision-language modules and a Diffusion Transformer model, CT-1 employs a Wavelet-based Regularization Loss in the frequency domain to effectively learn complex camera trajectory distributions. These trajectories are integrated into a video diffusion model to enable spatially aware camera control that aligns with user intentions. To facilitate the training of CT-1, we design a dedicated data curation pipeline and construct CT-200K, a large-scale dataset containing over 47M frames. Experimental results demonstrate that our framework successfully bridges the gap between spatial reasoning and video synthesis, yielding faithful and high-quality camera-controllable videos and improving camera control accuracy by 25.7% over prior methods.

CT-1 : Les modèles vision-langue-caméra transfèrent les connaissances en raisonnement spatial vers la génération de vidéo à caméra contrôlable

CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation

Résumé

Support