GimbalDiffusion: 비디오 생성을 위한 중력 인식 카메라 제어
GimbalDiffusion: Gravity-Aware Camera Control for Video Generation
December 9, 2025
저자: Frédéric Fortier-Chouinard, Yannick Hold-Geoffroy, Valentin Deschaintre, Matheus Gadelha, Jean-François Lalonde
cs.AI
초록
텍스트-비디오 생성 분야의 최근 발전은 놀라운 현실성을 달성했지만, 카메라 운동 및 방향에 대한 세밀한 제어는 여전히 어려운 과제로 남아 있습니다. 기존 접근법은 일반적으로 상대적이거나 모호한 표현을 통해 카메라 궤적을 인코딩하므로 명시적인 기하학적 제어가 제한됩니다. 본 연구에서는 중력을 전역 기준으로 활용하여 물리적 세계 좌표에 기반한 카메라 제어를 가능하게 하는 GimbalDiffusion 프레임워크를 소개합니다. 우리의 방법은 이전 프레임에 대한 상대적 운동을 설명하는 대신 절대 좌표계에서 카메라 궤적을 정의함으로써 초기 참조 프레임 없이도 카메라 매개변수에 대한 정밀하고 해석 가능한 제어를 허용합니다. 파노라마 360도 비디오를 활용하여 기존 비디오 데이터에서 주로 관찰되는 직선형 전방 주시 궤적을 훨씬 넘어서는 다양한 카메라 궤적을 구축합니다. 또한 카메라 안내를 강화하기 위해, 텍스트 내용과 카메라 사양이 충돌할 때(예: 카메라가 하늘을 향하는 상황에서 잔디 생성) 모델의 텍스트 내용 의존도를 줄이는 주석 전략인 null-pitch conditioning을 도입합니다. 마지막으로, SpatialVID-HQ 데이터셋을 재조정하여 광범위한 카메라 피치 변화 하에서 포괄적인 평가가 가능한 카메라 인식 비디오 생성 벤치마크를 구축합니다. 이러한 기여들을 종합하면 생성 프레임워크 내에서 중력에 정렬된 정밀한 카메라 조작을 가능하게 하여 텍스트-비디오 모델의 제어성과 견고성을 향상시킵니다.
English
Recent progress in text-to-video generation has achieved remarkable realism, yet fine-grained control over camera motion and orientation remains elusive. Existing approaches typically encode camera trajectories through relative or ambiguous representations, limiting explicit geometric control. We introduce GimbalDiffusion, a framework that enables camera control grounded in physical-world coordinates, using gravity as a global reference. Instead of describing motion relative to previous frames, our method defines camera trajectories in an absolute coordinate system, allowing precise and interpretable control over camera parameters without requiring an initial reference frame. We leverage panoramic 360-degree videos to construct a wide variety of camera trajectories, well beyond the predominantly straight, forward-facing trajectories seen in conventional video data. To further enhance camera guidance, we introduce null-pitch conditioning, an annotation strategy that reduces the model's reliance on text content when conflicting with camera specifications (e.g., generating grass while the camera points towards the sky). Finally, we establish a benchmark for camera-aware video generation by rebalancing SpatialVID-HQ for comprehensive evaluation under wide camera pitch variation. Together, these contributions advance the controllability and robustness of text-to-video models, enabling precise, gravity-aligned camera manipulation within generative frameworks.