ChatPaper.aiChatPaper

GenDoP: 자동회귀적 카메라 궤적 생성 기술로서의 촬영 감독

GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography

April 9, 2025
저자: Mengchen Zhang, Tong Wu, Jing Tan, Ziwei Liu, Gordon Wetzstein, Dahua Lin
cs.AI

초록

카메라 궤적 설계는 비디오 제작에서 감독의 의도를 전달하고 시각적 스토리텔링을 강화하는 기본 도구로서 중요한 역할을 합니다. 촬영 감독들은 표현력 있고 의도적인 프레이밍을 달성하기 위해 카메라 움직임을 세심하게 설계합니다. 그러나 기존의 카메라 궤적 생성 방법은 여전히 제한적입니다: 전통적인 접근 방식은 기하학적 최적화나 수작업 절차적 시스템에 의존하는 반면, 최근의 학습 기반 방법은 구조적 편향을 물려받거나 텍스트 정렬이 부족하여 창의적인 합성을 제한합니다. 본 연구에서는 촬영 감독들의 전문성을 반영한 자동회귀 모델을 도입하여 예술적이고 표현력 있는 카메라 궤적을 생성합니다. 먼저, 29K개의 실제 촬영 장면과 자유로운 카메라 궤적, 깊이 맵, 그리고 특정 움직임, 장면과의 상호작용, 감독의 의도에 대한 상세한 설명을 포함한 대규모 다중 모달 데이터셋인 DataDoP를 소개합니다. 이 포괄적이고 다양한 데이터베이스를 활용하여, 텍스트 지침과 RGBD 입력을 기반으로 고품질의 상황 인식 카메라 움직임 생성을 위한 자동회귀 디코더 전용 트랜스포머인 GenDoP를 추가로 학습시킵니다. 광범위한 실험을 통해 GenDoP가 기존 방법에 비해 더 나은 제어성, 더 세밀한 궤적 조정, 그리고 더 높은 움직임 안정성을 제공함을 입증합니다. 우리는 이 접근 방식이 학습 기반 촬영 기술의 새로운 기준을 세우고, 카메라 제어와 영화 제작의 미래 발전을 위한 길을 열어줄 것이라고 믿습니다. 프로젝트 웹사이트: https://kszpxxzmc.github.io/GenDoP/.
English
Camera trajectory design plays a crucial role in video production, serving as a fundamental tool for conveying directorial intent and enhancing visual storytelling. In cinematography, Directors of Photography meticulously craft camera movements to achieve expressive and intentional framing. However, existing methods for camera trajectory generation remain limited: Traditional approaches rely on geometric optimization or handcrafted procedural systems, while recent learning-based methods often inherit structural biases or lack textual alignment, constraining creative synthesis. In this work, we introduce an auto-regressive model inspired by the expertise of Directors of Photography to generate artistic and expressive camera trajectories. We first introduce DataDoP, a large-scale multi-modal dataset containing 29K real-world shots with free-moving camera trajectories, depth maps, and detailed captions in specific movements, interaction with the scene, and directorial intent. Thanks to the comprehensive and diverse database, we further train an auto-regressive, decoder-only Transformer for high-quality, context-aware camera movement generation based on text guidance and RGBD inputs, named GenDoP. Extensive experiments demonstrate that compared to existing methods, GenDoP offers better controllability, finer-grained trajectory adjustments, and higher motion stability. We believe our approach establishes a new standard for learning-based cinematography, paving the way for future advancements in camera control and filmmaking. Our project website: https://kszpxxzmc.github.io/GenDoP/.

Summary

AI-Generated Summary

PDF232April 10, 2025