GenDoP: Generación auto-regresiva de trayectorias de cámara como director de fotografía
GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography
April 9, 2025
Autores: Mengchen Zhang, Tong Wu, Jing Tan, Ziwei Liu, Gordon Wetzstein, Dahua Lin
cs.AI
Resumen
El diseño de trayectorias de cámara desempeña un papel crucial en la producción de vídeo, sirviendo como una herramienta fundamental para transmitir la intención del director y potenciar la narrativa visual. En cinematografía, los directores de fotografía elaboran meticulosamente los movimientos de cámara para lograr encuadres expresivos e intencionales. Sin embargo, los métodos existentes para la generación de trayectorias de cámara siguen siendo limitados: los enfoques tradicionales dependen de optimización geométrica o sistemas procedimentales artesanales, mientras que los métodos recientes basados en aprendizaje a menudo heredan sesgos estructurales o carecen de alineación textual, lo que restringe la síntesis creativa. En este trabajo, presentamos un modelo auto-regresivo inspirado en la experiencia de los directores de fotografía para generar trayectorias de cámara artísticas y expresivas. Primero introducimos DataDoP, un conjunto de datos multimodal a gran escala que contiene 29K tomas del mundo real con trayectorias de cámara de movimiento libre, mapas de profundidad y descripciones detalladas de movimientos específicos, interacción con la escena e intención del director. Gracias a esta base de datos exhaustiva y diversa, entrenamos un Transformer auto-regresivo de solo decodificador para la generación de movimientos de cámara de alta calidad y conscientes del contexto basados en guías textuales y entradas RGBD, denominado GenDoP. Experimentos extensivos demuestran que, en comparación con los métodos existentes, GenDoP ofrece una mejor controlabilidad, ajustes de trayectoria más detallados y una mayor estabilidad de movimiento. Creemos que nuestro enfoque establece un nuevo estándar para la cinematografía basada en aprendizaje, allanando el camino para futuros avances en el control de cámara y la realización cinematográfica. Nuestro sitio web del proyecto: https://kszpxxzmc.github.io/GenDoP/.
English
Camera trajectory design plays a crucial role in video production, serving as
a fundamental tool for conveying directorial intent and enhancing visual
storytelling. In cinematography, Directors of Photography meticulously craft
camera movements to achieve expressive and intentional framing. However,
existing methods for camera trajectory generation remain limited: Traditional
approaches rely on geometric optimization or handcrafted procedural systems,
while recent learning-based methods often inherit structural biases or lack
textual alignment, constraining creative synthesis. In this work, we introduce
an auto-regressive model inspired by the expertise of Directors of Photography
to generate artistic and expressive camera trajectories. We first introduce
DataDoP, a large-scale multi-modal dataset containing 29K real-world shots with
free-moving camera trajectories, depth maps, and detailed captions in specific
movements, interaction with the scene, and directorial intent. Thanks to the
comprehensive and diverse database, we further train an auto-regressive,
decoder-only Transformer for high-quality, context-aware camera movement
generation based on text guidance and RGBD inputs, named GenDoP. Extensive
experiments demonstrate that compared to existing methods, GenDoP offers better
controllability, finer-grained trajectory adjustments, and higher motion
stability. We believe our approach establishes a new standard for
learning-based cinematography, paving the way for future advancements in camera
control and filmmaking. Our project website:
https://kszpxxzmc.github.io/GenDoP/.Summary
AI-Generated Summary