Geometry Forcing: Unire la Diffusione Video e la Rappresentazione 3D per una Modellazione Consistente del Mondo
Geometry Forcing: Marrying Video Diffusion and 3D Representation for Consistent World Modeling
July 10, 2025
Autori: Haoyu Wu, Diankun Wu, Tianyu He, Junliang Guo, Yang Ye, Yueqi Duan, Jiang Bian
cs.AI
Abstract
I video rappresentano intrinsecamente proiezioni 2D di un mondo 3D dinamico. Tuttavia, la nostra analisi suggerisce che i modelli di diffusione video addestrati esclusivamente su dati video grezzi spesso non riescono a catturare una struttura geometricamente consapevole nelle loro rappresentazioni apprese. Per colmare questo divario tra i modelli di diffusione video e la natura 3D sottostante del mondo fisico, proponiamo Geometry Forcing, un metodo semplice ma efficace che incoraggia i modelli di diffusione video a internalizzare rappresentazioni latenti 3D. La nostra intuizione chiave è guidare le rappresentazioni intermedie del modello verso una struttura geometricamente consapevole allineandole con le caratteristiche di un modello geometrico pre-addestrato. A tal fine, introduciamo due obiettivi di allineamento complementari: Angular Alignment, che impone la consistenza direzionale tramite la similarità del coseno, e Scale Alignment, che preserva le informazioni relative alla scala regredendo caratteristiche geometriche non normalizzate dalla rappresentazione di diffusione normalizzata. Valutiamo Geometry Forcing su compiti di generazione video condizionati dalla vista della telecamera e dall'azione. I risultati sperimentali dimostrano che il nostro metodo migliora sostanzialmente la qualità visiva e la coerenza 3D rispetto ai metodi di base. Pagina del progetto: https://GeometryForcing.github.io.
English
Videos inherently represent 2D projections of a dynamic 3D world. However,
our analysis suggests that video diffusion models trained solely on raw video
data often fail to capture meaningful geometric-aware structure in their
learned representations. To bridge this gap between video diffusion models and
the underlying 3D nature of the physical world, we propose Geometry Forcing, a
simple yet effective method that encourages video diffusion models to
internalize latent 3D representations. Our key insight is to guide the model's
intermediate representations toward geometry-aware structure by aligning them
with features from a pretrained geometric foundation model. To this end, we
introduce two complementary alignment objectives: Angular Alignment, which
enforces directional consistency via cosine similarity, and Scale Alignment,
which preserves scale-related information by regressing unnormalized geometric
features from normalized diffusion representation. We evaluate Geometry Forcing
on both camera view-conditioned and action-conditioned video generation tasks.
Experimental results demonstrate that our method substantially improves visual
quality and 3D consistency over the baseline methods. Project page:
https://GeometryForcing.github.io.