ChatPaper.aiChatPaper

GenDoP : Génération auto-régressive de trajectoires de caméra en tant que directeur de la photographie

GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography

April 9, 2025
Auteurs: Mengchen Zhang, Tong Wu, Jing Tan, Ziwei Liu, Gordon Wetzstein, Dahua Lin
cs.AI

Résumé

La conception de trajectoires de caméra joue un rôle crucial dans la production vidéo, servant d'outil fondamental pour transmettre l'intention du réalisateur et enrichir la narration visuelle. En cinématographie, les directeurs de la photographie élaborent méticuleusement les mouvements de caméra pour obtenir des cadrages expressifs et intentionnels. Cependant, les méthodes existantes pour la génération de trajectoires de caméra restent limitées : les approches traditionnelles reposent sur l'optimisation géométrique ou des systèmes procéduraux artisanaux, tandis que les méthodes récentes basées sur l'apprentissage héritent souvent de biais structurels ou manquent d'alignement textuel, limitant ainsi la synthèse créative. Dans ce travail, nous introduisons un modèle auto-régressif inspiré de l'expertise des directeurs de la photographie pour générer des trajectoires de caméra artistiques et expressives. Nous présentons d'abord DataDoP, un ensemble de données multi-modales à grande échelle contenant 29K plans réels avec des trajectoires de caméra en mouvement libre, des cartes de profondeur et des descriptions détaillées des mouvements spécifiques, de l'interaction avec la scène et de l'intention du réalisateur. Grâce à cette base de données complète et diversifiée, nous entraînons ensuite un Transformer auto-régressif, uniquement décodeur, pour la génération de mouvements de caméra de haute qualité et conscients du contexte, basée sur des instructions textuelles et des entrées RGBD, nommé GenDoP. Des expériences approfondies démontrent que, par rapport aux méthodes existantes, GenDoP offre une meilleure contrôlabilité, des ajustements de trajectoire plus fins et une plus grande stabilité de mouvement. Nous croyons que notre approche établit une nouvelle norme pour la cinématographie basée sur l'apprentissage, ouvrant la voie à des avancées futures dans le contrôle de la caméra et la réalisation de films. Notre site web de projet : https://kszpxxzmc.github.io/GenDoP/.
English
Camera trajectory design plays a crucial role in video production, serving as a fundamental tool for conveying directorial intent and enhancing visual storytelling. In cinematography, Directors of Photography meticulously craft camera movements to achieve expressive and intentional framing. However, existing methods for camera trajectory generation remain limited: Traditional approaches rely on geometric optimization or handcrafted procedural systems, while recent learning-based methods often inherit structural biases or lack textual alignment, constraining creative synthesis. In this work, we introduce an auto-regressive model inspired by the expertise of Directors of Photography to generate artistic and expressive camera trajectories. We first introduce DataDoP, a large-scale multi-modal dataset containing 29K real-world shots with free-moving camera trajectories, depth maps, and detailed captions in specific movements, interaction with the scene, and directorial intent. Thanks to the comprehensive and diverse database, we further train an auto-regressive, decoder-only Transformer for high-quality, context-aware camera movement generation based on text guidance and RGBD inputs, named GenDoP. Extensive experiments demonstrate that compared to existing methods, GenDoP offers better controllability, finer-grained trajectory adjustments, and higher motion stability. We believe our approach establishes a new standard for learning-based cinematography, paving the way for future advancements in camera control and filmmaking. Our project website: https://kszpxxzmc.github.io/GenDoP/.

Summary

AI-Generated Summary

PDF232April 10, 2025