GenDoP: Авторегрессионная генерация траектории камеры как операторская работа
GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography
April 9, 2025
Авторы: Mengchen Zhang, Tong Wu, Jing Tan, Ziwei Liu, Gordon Wetzstein, Dahua Lin
cs.AI
Аннотация
Проектирование траектории камеры играет ключевую роль в производстве видео, являясь фундаментальным инструментом для передачи режиссерского замысла и усиления визуального повествования. В кинематографии операторы-постановщики тщательно продумывают движения камеры, чтобы достичь выразительного и осмысленного кадрирования. Однако существующие методы генерации траекторий камеры остаются ограниченными: традиционные подходы опираются на геометрическую оптимизацию или ручные процедурные системы, в то время как современные методы, основанные на обучении, часто наследуют структурные предубеждения или не учитывают текстовое соответствие, что ограничивает творческий синтез. В данной работе мы представляем авторегрессивную модель, вдохновленную опытом операторов-постановщиков, для генерации художественных и выразительных траекторий камеры. Сначала мы представляем DataDoP — крупномасштабный мультимодальный набор данных, содержащий 29 тысяч реальных съемок с траекториями свободного движения камеры, картами глубины и подробными описаниями, включающими конкретные движения, взаимодействие со сценой и режиссерский замысел. Благодаря всеобъемлющей и разнообразной базе данных, мы обучаем авторегрессивный декодер-трансформер для генерации высококачественных, контекстно-зависимых движений камеры на основе текстовых указаний и RGBD-входов, названный GenDoP. Многочисленные эксперименты показывают, что по сравнению с существующими методами GenDoP обеспечивает лучшую управляемость, более тонкую настройку траекторий и более высокую стабильность движений. Мы считаем, что наш подход устанавливает новый стандарт для обучения в области кинематографии, прокладывая путь для будущих достижений в управлении камерой и кинопроизводстве. Наш проект доступен по адресу: https://kszpxxzmc.github.io/GenDoP/.
English
Camera trajectory design plays a crucial role in video production, serving as
a fundamental tool for conveying directorial intent and enhancing visual
storytelling. In cinematography, Directors of Photography meticulously craft
camera movements to achieve expressive and intentional framing. However,
existing methods for camera trajectory generation remain limited: Traditional
approaches rely on geometric optimization or handcrafted procedural systems,
while recent learning-based methods often inherit structural biases or lack
textual alignment, constraining creative synthesis. In this work, we introduce
an auto-regressive model inspired by the expertise of Directors of Photography
to generate artistic and expressive camera trajectories. We first introduce
DataDoP, a large-scale multi-modal dataset containing 29K real-world shots with
free-moving camera trajectories, depth maps, and detailed captions in specific
movements, interaction with the scene, and directorial intent. Thanks to the
comprehensive and diverse database, we further train an auto-regressive,
decoder-only Transformer for high-quality, context-aware camera movement
generation based on text guidance and RGBD inputs, named GenDoP. Extensive
experiments demonstrate that compared to existing methods, GenDoP offers better
controllability, finer-grained trajectory adjustments, and higher motion
stability. We believe our approach establishes a new standard for
learning-based cinematography, paving the way for future advancements in camera
control and filmmaking. Our project website:
https://kszpxxzmc.github.io/GenDoP/.Summary
AI-Generated Summary