Forçage Géométrique : Unir la Diffusion Vidéo et la Représentation 3D pour une Modélisation Cohérente du Monde

Résumé

Les vidéos représentent intrinsèquement des projections 2D d'un monde dynamique en 3D. Cependant, notre analyse suggère que les modèles de diffusion vidéo entraînés uniquement sur des données vidéo brutes échouent souvent à capturer une structure géométriquement significative dans leurs représentations apprises. Pour combler cet écart entre les modèles de diffusion vidéo et la nature 3D sous-jacente du monde physique, nous proposons **Geometry Forcing**, une méthode simple mais efficace qui encourage les modèles de diffusion vidéo à internaliser des représentations latentes en 3D. Notre idée clé est de guider les représentations intermédiaires du modèle vers une structure géométriquement consciente en les alignant avec les caractéristiques d'un modèle de fondation géométrique pré-entraîné. À cette fin, nous introduisons deux objectifs d'alignement complémentaires : **l'Alignement Angulaire**, qui impose une cohérence directionnelle via la similarité cosinus, et **l'Alignement d'Échelle**, qui préserve les informations liées à l'échelle en régressant des caractéristiques géométriques non normalisées à partir de la représentation de diffusion normalisée. Nous évaluons **Geometry Forcing** sur des tâches de génération de vidéos conditionnées par la vue de la caméra et par l'action. Les résultats expérimentaux démontrent que notre méthode améliore considérablement la qualité visuelle et la cohérence 3D par rapport aux méthodes de référence. Page du projet : https://GeometryForcing.github.io.

English

Videos inherently represent 2D projections of a dynamic 3D world. However, our analysis suggests that video diffusion models trained solely on raw video data often fail to capture meaningful geometric-aware structure in their learned representations. To bridge this gap between video diffusion models and the underlying 3D nature of the physical world, we propose Geometry Forcing, a simple yet effective method that encourages video diffusion models to internalize latent 3D representations. Our key insight is to guide the model's intermediate representations toward geometry-aware structure by aligning them with features from a pretrained geometric foundation model. To this end, we introduce two complementary alignment objectives: Angular Alignment, which enforces directional consistency via cosine similarity, and Scale Alignment, which preserves scale-related information by regressing unnormalized geometric features from normalized diffusion representation. We evaluate Geometry Forcing on both camera view-conditioned and action-conditioned video generation tasks. Experimental results demonstrate that our method substantially improves visual quality and 3D consistency over the baseline methods. Project page: https://GeometryForcing.github.io.