ShotVerse: Avances en el Control Cinematográfico de Cámaras para la Creación de Videos Multitoma Basados en Texto

Resumen

La generación de vídeo basada en texto ha democratizado la creación cinematográfica, pero el control de cámara en escenarios cinematográficos multicámara sigue siendo un obstáculo significativo. Las indicaciones textuales implícitas carecen de precisión, mientras que el condicionamiento por trayectorias explícitas impone una carga manual prohibitiva y a menudo provoca fallos de ejecución en los modelos actuales. Para superar este cuello de botella, proponemos un cambio de paradigma centrado en los datos, postulando que los tríos alineados (Leyenda, Trayectoria, Vídeo) forman una distribución conjunta inherente que puede conectar la planificación automatizada con la ejecución precisa. Guiados por esta idea, presentamos ShotVerse, un marco "Planificar-y-Controlar" que desacopla la generación en dos agentes colaborativos: un Planificador basado en un Modelo de Visión-Lenguaje (VLM) que aprovecha conocimientos previos espaciales para obtener trayectorias cinematográficas y globalmente alineadas a partir de texto, y un Controlador que renderiza estas trayectorias en contenido de vídeo multicámara mediante un adaptador de cámara. Esencial para nuestro enfoque es la construcción de una base de datos: diseñamos un pipeline automatizado de calibración multicámara que alinea trayectorias disjuntas de tomas únicas en un sistema de coordenadas global unificado. Esto facilita la curación de ShotVerse-Bench, un conjunto de datos cinematográfico de alta fidelidad con un protocolo de evaluación de triple pista que sirve como base para nuestro marco. Experimentos exhaustivos demuestran que ShotVerse salva eficazmente la brecha entre el control textual poco fiable y la planificación manual intensiva en mano de obra, logrando una estética cinematográfica superior y generando vídeos multicámara que son precisos en cámara y consistentes entre tomas.

English

Text-driven video generation has democratized film creation, but camera control in cinematic multi-shot scenarios remains a significant block. Implicit textual prompts lack precision, while explicit trajectory conditioning imposes prohibitive manual overhead and often triggers execution failures in current models. To overcome this bottleneck, we propose a data-centric paradigm shift, positing that aligned (Caption, Trajectory, Video) triplets form an inherent joint distribution that can connect automated plotting and precise execution. Guided by this insight, we present ShotVerse, a "Plan-then-Control" framework that decouples generation into two collaborative agents: a VLM (Vision-Language Model)-based Planner that leverages spatial priors to obtain cinematic, globally aligned trajectories from text, and a Controller that renders these trajectories into multi-shot video content via a camera adapter. Central to our approach is the construction of a data foundation: we design an automated multi-shot camera calibration pipeline aligns disjoint single-shot trajectories into a unified global coordinate system. This facilitates the curation of ShotVerse-Bench, a high-fidelity cinematic dataset with a three-track evaluation protocol that serves as the bedrock for our framework. Extensive experiments demonstrate that ShotVerse effectively bridges the gap between unreliable textual control and labor-intensive manual plotting, achieving superior cinematic aesthetics and generating multi-shot videos that are both camera-accurate and cross-shot consistent.

ShotVerse: Avances en el Control Cinematográfico de Cámaras para la Creación de Videos Multitoma Basados en Texto

ShotVerse: Advancing Cinematic Camera Control for Text-Driven Multi-Shot Video Creation

Resumen

Support