ShotVerse: Avanços no Controle de Câmera Cinematográfico para Criação de Vídeos Multitomada Orientados por Texto
ShotVerse: Advancing Cinematic Camera Control for Text-Driven Multi-Shot Video Creation
March 12, 2026
Autores: Songlin Yang, Zhe Wang, Xuyi Yang, Songchun Zhang, Xianghao Kong, Taiyi Wu, Xiaotong Zhao, Ran Zhang, Alan Zhao, Anyi Rao
cs.AI
Resumo
A geração de vídeo orientada por texto democratizou a criação cinematográfica, mas o controle de câmera em cenários cinematográficos com múltiplos planos permanece um obstáculo significativo. As instruções textuais implícitas carecem de precisão, enquanto o condicionamento por trajetórias explícitas impõe uma sobrecarga manual proibitiva e frequentemente desencadeia falhas de execução nos modelos atuais. Para superar este gargalo, propomos uma mudança de paradigma centrada em dados, postulando que trincas alinhadas (Legenda, Trajetória, Vídeo) formam uma distribuição conjunta inerente que pode conectar a plotagem automatizada e a execução precisa. Guiados por esta visão, apresentamos o ShotVerse, uma estrutura "Planear-depois-Controlar" que desacopla a geração em dois agentes colaborativos: um Planeador baseado em Modelo de Visão-Linguagem (VLM) que aproveita conhecimentos prévios espaciais para obter trajetórias cinematográficas e globalmente alinhadas a partir de texto, e um Controlador que renderiza essas trajetórias em conteúdo de vídeo com múltiplos planos através de um adaptador de câmera. Central à nossa abordagem é a construção de uma base de dados: concebemos um pipeline automatizado de calibração de câmera para múltiplos planos que alinha trajetórias desconexas de planos únicos num sistema de coordenadas global unificado. Isto facilita a curadoria do ShotVerse-Bench, um conjunto de dados cinematográfico de alta fidelidade com um protocolo de avaliação de três vertentes que serve como alicerce para a nossa estrutura. Experimentos extensivos demonstram que o ShotVerse preenche eficazmente a lacuna entre o controlo textual não fiável e a plotagem manual intensiva em mão-de-obra, alcançando uma estética cinematográfica superior e gerando vídeos com múltiplos planos que são simultaneamente precisos na câmera e consistentes entre planos.
English
Text-driven video generation has democratized film creation, but camera control in cinematic multi-shot scenarios remains a significant block. Implicit textual prompts lack precision, while explicit trajectory conditioning imposes prohibitive manual overhead and often triggers execution failures in current models. To overcome this bottleneck, we propose a data-centric paradigm shift, positing that aligned (Caption, Trajectory, Video) triplets form an inherent joint distribution that can connect automated plotting and precise execution. Guided by this insight, we present ShotVerse, a "Plan-then-Control" framework that decouples generation into two collaborative agents: a VLM (Vision-Language Model)-based Planner that leverages spatial priors to obtain cinematic, globally aligned trajectories from text, and a Controller that renders these trajectories into multi-shot video content via a camera adapter. Central to our approach is the construction of a data foundation: we design an automated multi-shot camera calibration pipeline aligns disjoint single-shot trajectories into a unified global coordinate system. This facilitates the curation of ShotVerse-Bench, a high-fidelity cinematic dataset with a three-track evaluation protocol that serves as the bedrock for our framework. Extensive experiments demonstrate that ShotVerse effectively bridges the gap between unreliable textual control and labor-intensive manual plotting, achieving superior cinematic aesthetics and generating multi-shot videos that are both camera-accurate and cross-shot consistent.