GimbalDiffusion: Controle de Câmara com Consciência da Gravidade para Geração de Vídeo

Resumo

Os recentes avanços na geração de texto para vídeo alcançaram um realismo notável, mas o controle refinado sobre o movimento e a orientação da câmera permanece um desafio. As abordagens existentes geralmente codificam trajetórias de câmera por meio de representações relativas ou ambíguas, limitando o controle geométrico explícito. Apresentamos o GimbalDiffusion, uma estrutura que permite o controle da câmera baseado em coordenadas do mundo físico, utilizando a gravidade como referência global. Em vez de descrever o movimento em relação aos quadros anteriores, nosso método define trajetórias de câmera em um sistema de coordenadas absoluto, permitindo um controle preciso e interpretável sobre os parâmetros da câmera sem exigir um quadro de referência inicial. Utilizamos vídeos panorâmicos de 360 graus para construir uma ampla variedade de trajetórias de câmera, indo muito além das trajetórias predominantemente retas e frontais observadas em dados de vídeo convencionais. Para melhorar ainda mais a orientação da câmera, introduzimos o condicionamento de inclinação nula (null-pitch), uma estratégia de anotação que reduz a dependência do modelo no conteúdo textual quando este entra em conflito com as especificações da câmera (por exemplo, gerar grama enquanto a câmera aponta para o céu). Por fim, estabelecemos um benchmark para geração de vídeo com consciência da câmera, reequilibrando o SpatialVID-HQ para avaliação abrangente sob ampla variação de inclinação da câmera. Juntas, essas contribuições avançam a controlabilidade e a robustez dos modelos de texto para vídeo, permitindo uma manipulação precisa e alinhada com a gravidade da câmera dentro de estruturas generativas.

English

Recent progress in text-to-video generation has achieved remarkable realism, yet fine-grained control over camera motion and orientation remains elusive. Existing approaches typically encode camera trajectories through relative or ambiguous representations, limiting explicit geometric control. We introduce GimbalDiffusion, a framework that enables camera control grounded in physical-world coordinates, using gravity as a global reference. Instead of describing motion relative to previous frames, our method defines camera trajectories in an absolute coordinate system, allowing precise and interpretable control over camera parameters without requiring an initial reference frame. We leverage panoramic 360-degree videos to construct a wide variety of camera trajectories, well beyond the predominantly straight, forward-facing trajectories seen in conventional video data. To further enhance camera guidance, we introduce null-pitch conditioning, an annotation strategy that reduces the model's reliance on text content when conflicting with camera specifications (e.g., generating grass while the camera points towards the sky). Finally, we establish a benchmark for camera-aware video generation by rebalancing SpatialVID-HQ for comprehensive evaluation under wide camera pitch variation. Together, these contributions advance the controllability and robustness of text-to-video models, enabling precise, gravity-aligned camera manipulation within generative frameworks.