Geometry Forcing: Het combineren van videodiffusie en 3D-representatie voor consistent wereldmodellering
Geometry Forcing: Marrying Video Diffusion and 3D Representation for Consistent World Modeling
July 10, 2025
Auteurs: Haoyu Wu, Diankun Wu, Tianyu He, Junliang Guo, Yang Ye, Yueqi Duan, Jiang Bian
cs.AI
Samenvatting
Video's vertegenwoordigen inherent 2D-projecties van een dynamische 3D-wereld. Onze analyse suggereert echter dat videodiffusiemodellen die uitsluitend zijn getraind op ruwe videogegevens vaak geen betekenisvolle geometrisch bewuste structuur in hun geleerde representaties vastleggen. Om deze kloof tussen videodiffusiemodellen en de onderliggende 3D-natuur van de fysieke wereld te overbruggen, stellen we Geometry Forcing voor, een eenvoudige maar effectieve methode die videodiffusiemodellen aanmoedigt om latente 3D-representaties te internaliseren. Onze belangrijkste inzicht is om de tussenliggende representaties van het model te sturen naar een geometrisch bewuste structuur door ze af te stemmen op kenmerken van een voorgetraind geometrisch basis model. Hiertoe introduceren we twee complementaire afstemmingsdoelen: Hoekafstemming, die richtingsconsistentie afdwingt via cosinusgelijkenis, en Schaalafstemming, die schaalgerelateerde informatie behoudt door niet-genormaliseerde geometrische kenmerken te regresseren vanuit genormaliseerde diffusie-representatie. We evalueren Geometry Forcing op zowel camerabeeld-geconditioneerde als actie-geconditioneerde videogeneratietaken. Experimentele resultaten tonen aan dat onze methode de visuele kwaliteit en 3D-consistentie aanzienlijk verbetert ten opzichte van de baseline-methoden. Projectpagina: https://GeometryForcing.github.io.
English
Videos inherently represent 2D projections of a dynamic 3D world. However,
our analysis suggests that video diffusion models trained solely on raw video
data often fail to capture meaningful geometric-aware structure in their
learned representations. To bridge this gap between video diffusion models and
the underlying 3D nature of the physical world, we propose Geometry Forcing, a
simple yet effective method that encourages video diffusion models to
internalize latent 3D representations. Our key insight is to guide the model's
intermediate representations toward geometry-aware structure by aligning them
with features from a pretrained geometric foundation model. To this end, we
introduce two complementary alignment objectives: Angular Alignment, which
enforces directional consistency via cosine similarity, and Scale Alignment,
which preserves scale-related information by regressing unnormalized geometric
features from normalized diffusion representation. We evaluate Geometry Forcing
on both camera view-conditioned and action-conditioned video generation tasks.
Experimental results demonstrate that our method substantially improves visual
quality and 3D consistency over the baseline methods. Project page:
https://GeometryForcing.github.io.