GimbalDiffusion: Control de Cámara con Conciencia de la Gravedad para la Generación de Vídeo
GimbalDiffusion: Gravity-Aware Camera Control for Video Generation
December 9, 2025
Autores: Frédéric Fortier-Chouinard, Yannick Hold-Geoffroy, Valentin Deschaintre, Matheus Gadelha, Jean-François Lalonde
cs.AI
Resumen
Los recientes avances en generación de texto a vídeo han logrado un realismo notable, aunque el control detallado sobre el movimiento y orientación de la cámara sigue siendo esquivo. Los enfoques existentes suelen codificar trayectorias de cámara mediante representaciones relativas o ambiguas, lo que limita el control geométrico explícito. Presentamos GimbalDiffusion, un marco que permite el control de cámara basado en coordenadas del mundo físico, utilizando la gravedad como referencia global. En lugar de describir el movimiento relativo a fotogramas anteriores, nuestro método define trayectorias de cámara en un sistema de coordenadas absoluto, permitiendo un control preciso e interpretable de los parámetros de cámara sin requerir un fotograma de referencia inicial. Utilizamos vídeos panorámicos de 360 grados para construir una amplia variedad de trayectorias de cámara, que van mucho más allá de las trayectorias predominantemente rectas y frontales observadas en datos de vídeo convencionales. Para mejorar aún más la guía de cámara, introducimos el condicionamiento de inclinación nula, una estrategia de anotación que reduce la dependencia del modelo en el contenido textual cuando entra en conflicto con las especificaciones de cámara (por ejemplo, generar césped mientras la cámara apunta hacia el cielo). Finalmente, establecemos un punto de referencia para la generación de vídeo consciente de la cámara reequilibrando SpatialVID-HQ para una evaluación integral bajo amplia variación de inclinación de cámara. En conjunto, estas contribuciones avanzan la controlabilidad y robustez de los modelos de texto a vídeo, permitiendo una manipulación de cámara precisa y alineada con la gravedad dentro de marcos generativos.
English
Recent progress in text-to-video generation has achieved remarkable realism, yet fine-grained control over camera motion and orientation remains elusive. Existing approaches typically encode camera trajectories through relative or ambiguous representations, limiting explicit geometric control. We introduce GimbalDiffusion, a framework that enables camera control grounded in physical-world coordinates, using gravity as a global reference. Instead of describing motion relative to previous frames, our method defines camera trajectories in an absolute coordinate system, allowing precise and interpretable control over camera parameters without requiring an initial reference frame. We leverage panoramic 360-degree videos to construct a wide variety of camera trajectories, well beyond the predominantly straight, forward-facing trajectories seen in conventional video data. To further enhance camera guidance, we introduce null-pitch conditioning, an annotation strategy that reduces the model's reliance on text content when conflicting with camera specifications (e.g., generating grass while the camera points towards the sky). Finally, we establish a benchmark for camera-aware video generation by rebalancing SpatialVID-HQ for comprehensive evaluation under wide camera pitch variation. Together, these contributions advance the controllability and robustness of text-to-video models, enabling precise, gravity-aligned camera manipulation within generative frameworks.