Forçage Géométrique : Unir la Diffusion Vidéo et la Représentation 3D pour une Modélisation Cohérente du Monde
Geometry Forcing: Marrying Video Diffusion and 3D Representation for Consistent World Modeling
July 10, 2025
papers.authors: Haoyu Wu, Diankun Wu, Tianyu He, Junliang Guo, Yang Ye, Yueqi Duan, Jiang Bian
cs.AI
papers.abstract
Les vidéos représentent intrinsèquement des projections 2D d'un monde dynamique en 3D. Cependant, notre analyse suggère que les modèles de diffusion vidéo entraînés uniquement sur des données vidéo brutes échouent souvent à capturer une structure géométriquement significative dans leurs représentations apprises. Pour combler cet écart entre les modèles de diffusion vidéo et la nature 3D sous-jacente du monde physique, nous proposons **Geometry Forcing**, une méthode simple mais efficace qui encourage les modèles de diffusion vidéo à internaliser des représentations latentes en 3D. Notre idée clé est de guider les représentations intermédiaires du modèle vers une structure géométriquement consciente en les alignant avec les caractéristiques d'un modèle de fondation géométrique pré-entraîné. À cette fin, nous introduisons deux objectifs d'alignement complémentaires : **l'Alignement Angulaire**, qui impose une cohérence directionnelle via la similarité cosinus, et **l'Alignement d'Échelle**, qui préserve les informations liées à l'échelle en régressant des caractéristiques géométriques non normalisées à partir de la représentation de diffusion normalisée. Nous évaluons **Geometry Forcing** sur des tâches de génération de vidéos conditionnées par la vue de la caméra et par l'action. Les résultats expérimentaux démontrent que notre méthode améliore considérablement la qualité visuelle et la cohérence 3D par rapport aux méthodes de référence. Page du projet : https://GeometryForcing.github.io.
English
Videos inherently represent 2D projections of a dynamic 3D world. However,
our analysis suggests that video diffusion models trained solely on raw video
data often fail to capture meaningful geometric-aware structure in their
learned representations. To bridge this gap between video diffusion models and
the underlying 3D nature of the physical world, we propose Geometry Forcing, a
simple yet effective method that encourages video diffusion models to
internalize latent 3D representations. Our key insight is to guide the model's
intermediate representations toward geometry-aware structure by aligning them
with features from a pretrained geometric foundation model. To this end, we
introduce two complementary alignment objectives: Angular Alignment, which
enforces directional consistency via cosine similarity, and Scale Alignment,
which preserves scale-related information by regressing unnormalized geometric
features from normalized diffusion representation. We evaluate Geometry Forcing
on both camera view-conditioned and action-conditioned video generation tasks.
Experimental results demonstrate that our method substantially improves visual
quality and 3D consistency over the baseline methods. Project page:
https://GeometryForcing.github.io.