ShotVerse : Progrès dans le contrôle cinématographique de la caméra pour la création vidéo multi-plans pilotée par texte
ShotVerse: Advancing Cinematic Camera Control for Text-Driven Multi-Shot Video Creation
March 12, 2026
Auteurs: Songlin Yang, Zhe Wang, Xuyi Yang, Songchun Zhang, Xianghao Kong, Taiyi Wu, Xiaotong Zhao, Ran Zhang, Alan Zhao, Anyi Rao
cs.AI
Résumé
La génération vidéo pilotée par texte a démocratisé la création cinématographique, mais le contrôle de la caméra dans les scénarios multi-plans reste un obstacle majeur. Les instructions textuelles implicites manquent de précision, tandis que le conditionnement par trajectoires explicites impose une charge manuelle prohibitive et déclenche souvent des échecs d'exécution dans les modèles actuels. Pour surmonter ce goulot d'étranglement, nous proposons un changement de paradigme axé sur les données, postulant que les triplets (Légende, Trajectoire, Vidéo) alignés forment une distribution conjointe intrinsèque capable de relier la planification automatisée et l'exécution précise. Guidés par cette intuition, nous présentons ShotVerse, un framework "Planifier-puis-Contrôler" qui découple la génération en deux agents collaboratifs : un Planificateur basé sur un modèle vision-langage qui exploite des prérequis spatiaux pour obtenir des trajectoires cinématographiques alignées globalement à partir du texte, et un Contrôleur qui restitue ces trajectoires en contenu vidéo multi-plans via un adaptateur de caméra. Au cœur de notre approche se trouve la construction d'un fondement data : nous concevons un pipeline automatisé d'étalonnage multi-plans qui aligne des trajectoires mono-plan disjointes dans un système de coordonnées global unifié. Cela facilite la curation de ShotVerse-Bench, un dataset cinématographique haute fidélité avec un protocole d'évaluation à trois pistes servant de socle à notre framework. Des expériences approfondies démontrent que ShotVerse comble efficacement l'écart entre le contrôle textuel peu fiable et la planification manuelle laborieuse, atteignant une esthétique cinématographique supérieure et générant des vidéos multi-plans à la fois précises au niveau caméra et cohérentes entre les plans.
English
Text-driven video generation has democratized film creation, but camera control in cinematic multi-shot scenarios remains a significant block. Implicit textual prompts lack precision, while explicit trajectory conditioning imposes prohibitive manual overhead and often triggers execution failures in current models. To overcome this bottleneck, we propose a data-centric paradigm shift, positing that aligned (Caption, Trajectory, Video) triplets form an inherent joint distribution that can connect automated plotting and precise execution. Guided by this insight, we present ShotVerse, a "Plan-then-Control" framework that decouples generation into two collaborative agents: a VLM (Vision-Language Model)-based Planner that leverages spatial priors to obtain cinematic, globally aligned trajectories from text, and a Controller that renders these trajectories into multi-shot video content via a camera adapter. Central to our approach is the construction of a data foundation: we design an automated multi-shot camera calibration pipeline aligns disjoint single-shot trajectories into a unified global coordinate system. This facilitates the curation of ShotVerse-Bench, a high-fidelity cinematic dataset with a three-track evaluation protocol that serves as the bedrock for our framework. Extensive experiments demonstrate that ShotVerse effectively bridges the gap between unreliable textual control and labor-intensive manual plotting, achieving superior cinematic aesthetics and generating multi-shot videos that are both camera-accurate and cross-shot consistent.