ChatPaper.aiChatPaper

ShotVerse: Развитие кинематографического управления камерой для создания многокадровых видео на основе текста

ShotVerse: Advancing Cinematic Camera Control for Text-Driven Multi-Shot Video Creation

March 12, 2026
Авторы: Songlin Yang, Zhe Wang, Xuyi Yang, Songchun Zhang, Xianghao Kong, Taiyi Wu, Xiaotong Zhao, Ran Zhang, Alan Zhao, Anyi Rao
cs.AI

Аннотация

Текстовая генерация видео демократизировала создание фильмов, однако управление камерой в сценариях с кинематографическими многокадровыми сценами остаётся серьёзным препятствием. Неявные текстовые подсказки недостаточно точны, в то время как явное задание траекторий накладывает непомерные ручные затраты и часто провоцирует сбои выполнения в современных моделях. Чтобы преодолеть это узкое место, мы предлагаем парадигмальный сдвиг, ориентированный на данные, и утверждаем, что выровненные тройки (Подпись, Траектория, Видео) формируют inherentное совместное распределение, способное связать автоматическое планирование и точное исполнение. Руководствуясь этим принципом, мы представляем ShotVerse — фреймворк «Спланируй-затем-Управляй», который разделяет генерацию на двух совместных агентов: Планировщик на основе VLM (визуально-языковой модели), использующий пространственные априорные данные для получения кинематографических, глобально выровненных траекторий из текста, и Контроллер, который преобразует эти траектории в многокадровое видео через камерный адаптер. Ключевым элементом нашего подхода является создание фундамента данных: мы разработали автоматизированный конвейер калибровки камеры для многокадровых сцен, который объединяет разрозненные однокадровые траектории в единую глобальную систему координат. Это позволяет создать ShotVerse-Bench — высококачественный кинематографический набор данных с трёхуровневым протоколом оценки, служащий основой для нашего фреймворка. Многочисленные эксперименты демонстрируют, что ShotVerse эффективно устраняет разрыв между ненадёжным текстовым управлением и трудоёмким ручным планированием, обеспечивая превосходную кинематографическую эстетику и генерируя многокадровые видео, которые одновременно точны по камере и согласованы между кадрами.
English
Text-driven video generation has democratized film creation, but camera control in cinematic multi-shot scenarios remains a significant block. Implicit textual prompts lack precision, while explicit trajectory conditioning imposes prohibitive manual overhead and often triggers execution failures in current models. To overcome this bottleneck, we propose a data-centric paradigm shift, positing that aligned (Caption, Trajectory, Video) triplets form an inherent joint distribution that can connect automated plotting and precise execution. Guided by this insight, we present ShotVerse, a "Plan-then-Control" framework that decouples generation into two collaborative agents: a VLM (Vision-Language Model)-based Planner that leverages spatial priors to obtain cinematic, globally aligned trajectories from text, and a Controller that renders these trajectories into multi-shot video content via a camera adapter. Central to our approach is the construction of a data foundation: we design an automated multi-shot camera calibration pipeline aligns disjoint single-shot trajectories into a unified global coordinate system. This facilitates the curation of ShotVerse-Bench, a high-fidelity cinematic dataset with a three-track evaluation protocol that serves as the bedrock for our framework. Extensive experiments demonstrate that ShotVerse effectively bridges the gap between unreliable textual control and labor-intensive manual plotting, achieving superior cinematic aesthetics and generating multi-shot videos that are both camera-accurate and cross-shot consistent.
PDF282March 15, 2026