ShotVerse: Fortschritte bei der filmischen Kamerasteuerung für textgesteuerte Mehrfachaufnahmen-Videoerstellung

Zusammenfassung

Die textgesteuerte Videogenerierung hat die Filmerstellung demokratisiert, doch die Kamerasteuerung in kinematografischen Mehrschuss-Szenarien bleibt eine große Hürde. Implizite textuelle Prompts sind unpräzise, während explizite Trajektorien-Konditionierung unverhältnismäßigen manuellen Aufwand erfordert und in aktuellen Modellen häufig zu Ausführungsfehlern führt. Um diesen Engpass zu überwinden, schlagen wir einen datenzentrierten Paradigmenwechsel vor, der davon ausgeht, dass ausgerichtete (Beschreibung, Trajektorie, Video)-Triplets eine inhärente gemeinsame Verteilung bilden, die automatisierte Planung und präzise Ausführung verbinden kann. Aufbauend auf dieser Erkenntnis präsentieren wir ShotVerse, einen "Plan-then-Control"-Framework, der die Generierung in zwei zusammenarbeitende Agenten entkoppelt: einen VLM-basierten Planer, der räumliche Priori nutzt, um kinematografische, global ausgerichtete Trajektorien aus Text abzuleiten, und einen Controller, der diese Trajektorien über einen Kameraadapter in Mehrschuss-Videoinhalte umsetzt. Zentrale Grundlage unseres Ansatzes ist der Aufbau einer Datenbasis: Wir entwickeln eine automatisierte Pipeline zur Mehrschuss-Kamerakalibrierung, die disparate Einzelschuss-Trajektorien in ein einheitliches globales Koordinatensystem überführt. Dies ermöglicht die Erstellung von ShotVerse-Bench, einem hochwertigen kinematografischen Datensatz mit einem dreistufigen Evaluierungsprotokoll, der als Fundament für unser Framework dient. Umfangreiche Experimente belegen, dass ShotVerse die Lücke zwischen unzuverlässiger textueller Steuerung und arbeitsintensiver manueller Planung effektiv schließt, überlegene kinematografische Ästhetik erreicht und Mehrschuss-Videos erzeugt, die sowohl kameragenau als auch schussübergreifend konsistent sind.

English

Text-driven video generation has democratized film creation, but camera control in cinematic multi-shot scenarios remains a significant block. Implicit textual prompts lack precision, while explicit trajectory conditioning imposes prohibitive manual overhead and often triggers execution failures in current models. To overcome this bottleneck, we propose a data-centric paradigm shift, positing that aligned (Caption, Trajectory, Video) triplets form an inherent joint distribution that can connect automated plotting and precise execution. Guided by this insight, we present ShotVerse, a "Plan-then-Control" framework that decouples generation into two collaborative agents: a VLM (Vision-Language Model)-based Planner that leverages spatial priors to obtain cinematic, globally aligned trajectories from text, and a Controller that renders these trajectories into multi-shot video content via a camera adapter. Central to our approach is the construction of a data foundation: we design an automated multi-shot camera calibration pipeline aligns disjoint single-shot trajectories into a unified global coordinate system. This facilitates the curation of ShotVerse-Bench, a high-fidelity cinematic dataset with a three-track evaluation protocol that serves as the bedrock for our framework. Extensive experiments demonstrate that ShotVerse effectively bridges the gap between unreliable textual control and labor-intensive manual plotting, achieving superior cinematic aesthetics and generating multi-shot videos that are both camera-accurate and cross-shot consistent.

ShotVerse: Fortschritte bei der filmischen Kamerasteuerung für textgesteuerte Mehrfachaufnahmen-Videoerstellung

ShotVerse: Advancing Cinematic Camera Control for Text-Driven Multi-Shot Video Creation

Zusammenfassung

Support