ChatPaper.aiChatPaper

GenDoP: Autoregressive Erzeugung von Kameratrajektorien als Director of Photography

GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography

April 9, 2025
Autoren: Mengchen Zhang, Tong Wu, Jing Tan, Ziwei Liu, Gordon Wetzstein, Dahua Lin
cs.AI

Zusammenfassung

Die Gestaltung der Kameratrajektorie spielt eine entscheidende Rolle in der Videoproduktion und dient als grundlegendes Werkzeug, um die Intention des Regisseurs zu vermitteln und die visuelle Erzählung zu verbessern. In der Kinematografie entwerfen Kameraleiter sorgfältig Kamerabewegungen, um ausdrucksstarke und intentionale Bildkompositionen zu erreichen. Allerdings sind bestehende Methoden zur Generierung von Kameratrajektorien begrenzt: Traditionelle Ansätze stützen sich auf geometrische Optimierung oder handgefertigte prozedurale Systeme, während neuere lernbasierte Methoden oft strukturelle Verzerrungen aufweisen oder keine Textausrichtung besitzen, was die kreative Synthese einschränkt. In dieser Arbeit stellen wir ein autoregressives Modell vor, das von der Expertise der Kameraleiter inspiriert ist, um künstlerische und ausdrucksstarke Kameratrajektorien zu generieren. Zunächst führen wir DataDoP ein, einen groß angelegten multimodalen Datensatz, der 29.000 reale Aufnahmen mit frei beweglichen Kameratrajektorien, Tiefenkarten und detaillierten Beschreibungen spezifischer Bewegungen, Interaktionen mit der Szene und Regieabsichten enthält. Dank der umfassenden und vielfältigen Datenbasis trainieren wir weiterhin einen autoregressiven, decoder-only Transformer für die hochwertige, kontextbewusste Generierung von Kamerabewegungen basierend auf Textanweisungen und RGBD-Eingaben, genannt GenDoP. Umfangreiche Experimente zeigen, dass GenDoP im Vergleich zu bestehenden Methoden eine bessere Steuerbarkeit, feinere Trajektorienanpassungen und eine höhere Bewegungsstabilität bietet. Wir glauben, dass unser Ansatz einen neuen Standard für lernbasierte Kinematografie setzt und den Weg für zukünftige Fortschritte in der Kamerasteuerung und Filmproduktion ebnet. Unsere Projektwebsite: https://kszpxxzmc.github.io/GenDoP/.
English
Camera trajectory design plays a crucial role in video production, serving as a fundamental tool for conveying directorial intent and enhancing visual storytelling. In cinematography, Directors of Photography meticulously craft camera movements to achieve expressive and intentional framing. However, existing methods for camera trajectory generation remain limited: Traditional approaches rely on geometric optimization or handcrafted procedural systems, while recent learning-based methods often inherit structural biases or lack textual alignment, constraining creative synthesis. In this work, we introduce an auto-regressive model inspired by the expertise of Directors of Photography to generate artistic and expressive camera trajectories. We first introduce DataDoP, a large-scale multi-modal dataset containing 29K real-world shots with free-moving camera trajectories, depth maps, and detailed captions in specific movements, interaction with the scene, and directorial intent. Thanks to the comprehensive and diverse database, we further train an auto-regressive, decoder-only Transformer for high-quality, context-aware camera movement generation based on text guidance and RGBD inputs, named GenDoP. Extensive experiments demonstrate that compared to existing methods, GenDoP offers better controllability, finer-grained trajectory adjustments, and higher motion stability. We believe our approach establishes a new standard for learning-based cinematography, paving the way for future advancements in camera control and filmmaking. Our project website: https://kszpxxzmc.github.io/GenDoP/.

Summary

AI-Generated Summary

PDF232April 10, 2025