ChatPaper.aiChatPaper

GenDoP: オートレグレッシブなカメラ軌道生成による撮影監督

GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography

April 9, 2025
著者: Mengchen Zhang, Tong Wu, Jing Tan, Ziwei Liu, Gordon Wetzstein, Dahua Lin
cs.AI

要旨

カメラ軌道設計は映像制作において重要な役割を果たし、監督の意図を伝え、視覚的ストーリーテリングを強化するための基本的なツールとして機能します。撮影監督は、表現力豊かで意図的なフレーミングを実現するために、カメラの動きを入念に設計します。しかし、既存のカメラ軌道生成手法には限界があります。従来のアプローチは幾何学的最適化や手作りのプロシージャルシステムに依存しており、最近の学習ベースの手法では構造的なバイアスを引き継いだり、テキストとの整合性が欠けていたりするため、創造的な合成が制約されています。本研究では、撮影監督の専門知識に着想を得た自己回帰モデルを導入し、芸術的で表現力豊かなカメラ軌道を生成します。まず、29,000の実世界のショットを含む大規模なマルチモーダルデータセット「DataDoP」を紹介します。このデータセットには、自由に動くカメラ軌道、深度マップ、特定の動き、シーンとの相互作用、監督の意図に関する詳細なキャプションが含まれています。この包括的で多様なデータベースを活用し、テキストガイダンスとRGBD入力を基にした高品質で文脈を考慮したカメラ動き生成のための自己回帰型デコーダのみのTransformer「GenDoP」を訓練します。広範な実験により、GenDoPが既存の手法と比較して、より優れた制御性、より細かい軌道調整、そしてより高いモーション安定性を提供することが実証されました。我々のアプローチは、学習ベースの撮影技術における新たな基準を確立し、カメラ制御と映画制作の将来の発展への道を開くものと信じています。プロジェクトウェブサイト: https://kszpxxzmc.github.io/GenDoP/。
English
Camera trajectory design plays a crucial role in video production, serving as a fundamental tool for conveying directorial intent and enhancing visual storytelling. In cinematography, Directors of Photography meticulously craft camera movements to achieve expressive and intentional framing. However, existing methods for camera trajectory generation remain limited: Traditional approaches rely on geometric optimization or handcrafted procedural systems, while recent learning-based methods often inherit structural biases or lack textual alignment, constraining creative synthesis. In this work, we introduce an auto-regressive model inspired by the expertise of Directors of Photography to generate artistic and expressive camera trajectories. We first introduce DataDoP, a large-scale multi-modal dataset containing 29K real-world shots with free-moving camera trajectories, depth maps, and detailed captions in specific movements, interaction with the scene, and directorial intent. Thanks to the comprehensive and diverse database, we further train an auto-regressive, decoder-only Transformer for high-quality, context-aware camera movement generation based on text guidance and RGBD inputs, named GenDoP. Extensive experiments demonstrate that compared to existing methods, GenDoP offers better controllability, finer-grained trajectory adjustments, and higher motion stability. We believe our approach establishes a new standard for learning-based cinematography, paving the way for future advancements in camera control and filmmaking. Our project website: https://kszpxxzmc.github.io/GenDoP/.

Summary

AI-Generated Summary

PDF232April 10, 2025