GimbalDiffusion: 映像生成のための重力を考慮したカメラ制御
GimbalDiffusion: Gravity-Aware Camera Control for Video Generation
December 9, 2025
著者: Frédéric Fortier-Chouinard, Yannick Hold-Geoffroy, Valentin Deschaintre, Matheus Gadelha, Jean-François Lalonde
cs.AI
要旨
テキストからビデオを生成する技術は近年著しいリアリズムを達成しているが、カメラの動きや向きに対する微細な制御は依然として困難な課題である。既存の手法では、カメラ軌道を相対的あるいは曖昧な表現で符号化することが一般的であり、明示的な幾何学的制御が制限されている。本論文では、重力を大域的な基準として用い、物理世界の座標に基づいたカメラ制御を可能にするフレームワークGimbalDiffusionを提案する。我々の手法は、動きを前フレームに対して記述するのではなく、カメラ軌道を絶対座標系で定義するため、初期参照フレームを必要とせず、カメラパラメータに対する精密で解釈可能な制御を実現する。パノラマ360度動画を活用することで、従来の映像データで主流である直線的・正面指向の軌道をはるかに超える多様なカメラ軌道を構築する。さらにカメラ制御を強化するため、テキスト内容とカメラ指定が矛盾する状況(例:カメラが空を向いているのに草を生成する)において、モデルのテキスト内容への依存を低減する注釈戦略であるnull-pitch conditioningを導入する。最後に、SpatialVID-HQを再調整し、広範なカメラピッチ変動下での総合的な評価を可能とする、カメラを考慮したビデオ生成のベンチマークを確立する。これらの貢献により、生成フレームワーク内で精密かつ重力方向に整合したカメラ操作を実現し、テキスト-to-ビデオモデルの制御性と頑健性を推進する。
English
Recent progress in text-to-video generation has achieved remarkable realism, yet fine-grained control over camera motion and orientation remains elusive. Existing approaches typically encode camera trajectories through relative or ambiguous representations, limiting explicit geometric control. We introduce GimbalDiffusion, a framework that enables camera control grounded in physical-world coordinates, using gravity as a global reference. Instead of describing motion relative to previous frames, our method defines camera trajectories in an absolute coordinate system, allowing precise and interpretable control over camera parameters without requiring an initial reference frame. We leverage panoramic 360-degree videos to construct a wide variety of camera trajectories, well beyond the predominantly straight, forward-facing trajectories seen in conventional video data. To further enhance camera guidance, we introduce null-pitch conditioning, an annotation strategy that reduces the model's reliance on text content when conflicting with camera specifications (e.g., generating grass while the camera points towards the sky). Finally, we establish a benchmark for camera-aware video generation by rebalancing SpatialVID-HQ for comprehensive evaluation under wide camera pitch variation. Together, these contributions advance the controllability and robustness of text-to-video models, enabling precise, gravity-aligned camera manipulation within generative frameworks.