GenDoP: Autoregressieve cameratrajectgeneratie als een Director of Photography
GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography
April 9, 2025
Auteurs: Mengchen Zhang, Tong Wu, Jing Tan, Ziwei Liu, Gordon Wetzstein, Dahua Lin
cs.AI
Samenvatting
Camera trajectory design speelt een cruciale rol in videoproductie en dient als een fundamenteel hulpmiddel om de regisseursintentie over te brengen en visuele storytelling te versterken. In de cinematografie besteden Directors of Photography nauwgezet aandacht aan het ontwerpen van camerabewegingen om expressieve en intentionele kadrering te bereiken. Echter, bestaande methoden voor het genereren van cameratrajecten blijven beperkt: traditionele benaderingen vertrouwen op geometrische optimalisatie of handgemaakte procedurele systemen, terwijl recente op leren gebaseerde methoden vaak structurele vooroordelen overnemen of tekstuele afstemming missen, wat de creatieve synthese beperkt. In dit werk introduceren we een autoregressief model, geïnspireerd door de expertise van Directors of Photography, om artistieke en expressieve cameratrajecten te genereren. We introduceren eerst DataDoP, een grootschalige multimodale dataset met 29K real-world shots met vrij bewegende cameratrajecten, dieptekaarten en gedetailleerde bijschriften over specifieke bewegingen, interactie met de scène en regisseursintentie. Dankzij de uitgebreide en diverse database trainen we verder een autoregressieve, decoder-only Transformer voor hoogwaardige, contextbewuste camerabewegingsgeneratie op basis van tekstbegeleiding en RGBD-inputs, genaamd GenDoP. Uitgebreide experimenten tonen aan dat GenDoP, in vergelijking met bestaande methoden, betere bestuurbaarheid, fijnmazigere trajectaanpassingen en hogere bewegingsstabiliteit biedt. Wij geloven dat onze aanpak een nieuwe standaard vestigt voor op leren gebaseerde cinematografie, wat de weg vrijmaakt voor toekomstige vooruitgang in camerabesturing en filmproductie. Onze projectwebsite: https://kszpxxzmc.github.io/GenDoP/.
English
Camera trajectory design plays a crucial role in video production, serving as
a fundamental tool for conveying directorial intent and enhancing visual
storytelling. In cinematography, Directors of Photography meticulously craft
camera movements to achieve expressive and intentional framing. However,
existing methods for camera trajectory generation remain limited: Traditional
approaches rely on geometric optimization or handcrafted procedural systems,
while recent learning-based methods often inherit structural biases or lack
textual alignment, constraining creative synthesis. In this work, we introduce
an auto-regressive model inspired by the expertise of Directors of Photography
to generate artistic and expressive camera trajectories. We first introduce
DataDoP, a large-scale multi-modal dataset containing 29K real-world shots with
free-moving camera trajectories, depth maps, and detailed captions in specific
movements, interaction with the scene, and directorial intent. Thanks to the
comprehensive and diverse database, we further train an auto-regressive,
decoder-only Transformer for high-quality, context-aware camera movement
generation based on text guidance and RGBD inputs, named GenDoP. Extensive
experiments demonstrate that compared to existing methods, GenDoP offers better
controllability, finer-grained trajectory adjustments, and higher motion
stability. We believe our approach establishes a new standard for
learning-based cinematography, paving the way for future advancements in camera
control and filmmaking. Our project website:
https://kszpxxzmc.github.io/GenDoP/.