ShotVerse: Avanzamenti nel Controllo Cinematico della Fotocamera per la Creazione di Video Multi-Inquadratura Guidati da Testo

Abstract

La generazione di video basata su testo ha democratizzato la creazione cinematografica, ma il controllo della telecamera in scenari cinematografici multi-inquadratura rimane un ostacolo significativo. I prompt testuali impliciti mancano di precisione, mentre il condizionamento esplicito della traiettoria impone un sovraccarico manuale proibitivo e spesso innesca errori di esecuzione nei modelli attuali. Per superare questo collo di bottiglia, proponiamo un cambio di paradigma incentrato sui dati, postulando che le triplette allineate (Didascalia, Traiettoria, Video) formino una distribuzione congiunta intrinseca in grado di connettere la pianificazione automatizzata e l'esecuzione precisa. Guidati da questa intuizione, presentiamo ShotVerse, un framework "Pianifica-poi-Controlla" che disaccoppia la generazione in due agenti collaborativi: un Pianificatore basato su VLM (Vision-Language Model) che sfrutta prior spaziali per ottenere traiettorie cinematografiche e globalmente allineate dal testo, e un Controllore che rende queste traiettorie in contenuti video multi-inquadratura tramite un adattatore per telecamera. Centrale per il nostro approccio è la costruzione di una base dati: progettiamo una pipeline automatizzata di calibrazione della telecamera multi-inquadratura che allinea traiettorie singole disgiunte in un sistema di coordinate globale unificato. Ciò facilita la creazione di ShotVerse-Bench, un dataset cinematografico ad alta fedeltà con un protocollo di valutazione a tre tracce che funge da base per il nostro framework. Esperimenti estensivi dimostrano che ShotVerse colma efficacemente il divario tra il controllo testuale inaffidabile e la pianificazione manuale laboriosa, raggiungendo un'estetica cinematografica superiore e generando video multi-inquadratura che sono sia precisi a livello di telecamera che coerenti tra le diverse inquadrature.

English

Text-driven video generation has democratized film creation, but camera control in cinematic multi-shot scenarios remains a significant block. Implicit textual prompts lack precision, while explicit trajectory conditioning imposes prohibitive manual overhead and often triggers execution failures in current models. To overcome this bottleneck, we propose a data-centric paradigm shift, positing that aligned (Caption, Trajectory, Video) triplets form an inherent joint distribution that can connect automated plotting and precise execution. Guided by this insight, we present ShotVerse, a "Plan-then-Control" framework that decouples generation into two collaborative agents: a VLM (Vision-Language Model)-based Planner that leverages spatial priors to obtain cinematic, globally aligned trajectories from text, and a Controller that renders these trajectories into multi-shot video content via a camera adapter. Central to our approach is the construction of a data foundation: we design an automated multi-shot camera calibration pipeline aligns disjoint single-shot trajectories into a unified global coordinate system. This facilitates the curation of ShotVerse-Bench, a high-fidelity cinematic dataset with a three-track evaluation protocol that serves as the bedrock for our framework. Extensive experiments demonstrate that ShotVerse effectively bridges the gap between unreliable textual control and labor-intensive manual plotting, achieving superior cinematic aesthetics and generating multi-shot videos that are both camera-accurate and cross-shot consistent.

ShotVerse: Avanzamenti nel Controllo Cinematico della Fotocamera per la Creazione di Video Multi-Inquadratura Guidati da Testo

ShotVerse: Advancing Cinematic Camera Control for Text-Driven Multi-Shot Video Creation

Abstract

Support