GenDoP: Geração Auto-regressiva de Trajetória de Câmera como um Diretor de Fotografia
GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography
April 9, 2025
Autores: Mengchen Zhang, Tong Wu, Jing Tan, Ziwei Liu, Gordon Wetzstein, Dahua Lin
cs.AI
Resumo
O design da trajetória da câmera desempenha um papel crucial na produção de vídeo, servindo como uma ferramenta fundamental para transmitir a intenção do diretor e aprimorar a narrativa visual. Na cinematografia, os Diretores de Fotografia elaboram meticulosamente os movimentos da câmera para alcançar enquadramentos expressivos e intencionais. No entanto, os métodos existentes para geração de trajetórias de câmera permanecem limitados: as abordagens tradicionais dependem de otimização geométrica ou sistemas procedurais manuais, enquanto os métodos recentes baseados em aprendizado frequentemente herdam vieses estruturais ou carecem de alinhamento textual, restringindo a síntese criativa. Neste trabalho, introduzimos um modelo auto-regressivo inspirado na expertise dos Diretores de Fotografia para gerar trajetórias de câmera artísticas e expressivas. Primeiramente, apresentamos o DataDoP, um conjunto de dados multimodal em larga escala contendo 29K tomadas do mundo real com trajetórias de câmera em movimento livre, mapas de profundidade e legendas detalhadas sobre movimentos específicos, interação com a cena e intenção do diretor. Graças ao banco de dados abrangente e diversificado, treinamos ainda um Transformer auto-regressivo, apenas com decodificador, para geração de movimentos de câmera de alta qualidade e conscientes do contexto, baseados em orientação textual e entradas RGBD, denominado GenDoP. Experimentos extensivos demonstram que, em comparação com os métodos existentes, o GenDoP oferece melhor controlabilidade, ajustes de trajetória mais refinados e maior estabilidade de movimento. Acreditamos que nossa abordagem estabelece um novo padrão para a cinematografia baseada em aprendizado, abrindo caminho para avanços futuros no controle de câmera e na produção cinematográfica. Nosso site do projeto: https://kszpxxzmc.github.io/GenDoP/.
English
Camera trajectory design plays a crucial role in video production, serving as
a fundamental tool for conveying directorial intent and enhancing visual
storytelling. In cinematography, Directors of Photography meticulously craft
camera movements to achieve expressive and intentional framing. However,
existing methods for camera trajectory generation remain limited: Traditional
approaches rely on geometric optimization or handcrafted procedural systems,
while recent learning-based methods often inherit structural biases or lack
textual alignment, constraining creative synthesis. In this work, we introduce
an auto-regressive model inspired by the expertise of Directors of Photography
to generate artistic and expressive camera trajectories. We first introduce
DataDoP, a large-scale multi-modal dataset containing 29K real-world shots with
free-moving camera trajectories, depth maps, and detailed captions in specific
movements, interaction with the scene, and directorial intent. Thanks to the
comprehensive and diverse database, we further train an auto-regressive,
decoder-only Transformer for high-quality, context-aware camera movement
generation based on text guidance and RGBD inputs, named GenDoP. Extensive
experiments demonstrate that compared to existing methods, GenDoP offers better
controllability, finer-grained trajectory adjustments, and higher motion
stability. We believe our approach establishes a new standard for
learning-based cinematography, paving the way for future advancements in camera
control and filmmaking. Our project website:
https://kszpxxzmc.github.io/GenDoP/.Summary
AI-Generated Summary