Geometría Forzada: Uniendo Difusión de Video y Representación 3D para un Modelado Consistente del Mundo
Geometry Forcing: Marrying Video Diffusion and 3D Representation for Consistent World Modeling
July 10, 2025
Autores: Haoyu Wu, Diankun Wu, Tianyu He, Junliang Guo, Yang Ye, Yueqi Duan, Jiang Bian
cs.AI
Resumen
Los videos representan inherentemente proyecciones 2D de un mundo 3D dinámico. Sin embargo, nuestro análisis sugiere que los modelos de difusión de video entrenados únicamente con datos de video sin procesar a menudo no logran capturar una estructura geométricamente significativa en sus representaciones aprendidas. Para cerrar esta brecha entre los modelos de difusión de video y la naturaleza 3D subyacente del mundo físico, proponemos Geometry Forcing, un método simple pero efectivo que fomenta que los modelos de difusión de video internalicen representaciones latentes en 3D. Nuestra idea clave es guiar las representaciones intermedias del modelo hacia una estructura consciente de la geometría alineándolas con características de un modelo de base geométrica preentrenado. Para ello, introducimos dos objetivos de alineación complementarios: Alineación Angular, que impone consistencia direccional mediante similitud coseno, y Alineación de Escala, que preserva información relacionada con la escala al regresar características geométricas no normalizadas a partir de representaciones de difusión normalizadas. Evaluamos Geometry Forcing en tareas de generación de video condicionadas tanto por la vista de la cámara como por la acción. Los resultados experimentales demuestran que nuestro método mejora sustancialmente la calidad visual y la consistencia 3D en comparación con los métodos de referencia. Página del proyecto: https://GeometryForcing.github.io.
English
Videos inherently represent 2D projections of a dynamic 3D world. However,
our analysis suggests that video diffusion models trained solely on raw video
data often fail to capture meaningful geometric-aware structure in their
learned representations. To bridge this gap between video diffusion models and
the underlying 3D nature of the physical world, we propose Geometry Forcing, a
simple yet effective method that encourages video diffusion models to
internalize latent 3D representations. Our key insight is to guide the model's
intermediate representations toward geometry-aware structure by aligning them
with features from a pretrained geometric foundation model. To this end, we
introduce two complementary alignment objectives: Angular Alignment, which
enforces directional consistency via cosine similarity, and Scale Alignment,
which preserves scale-related information by regressing unnormalized geometric
features from normalized diffusion representation. We evaluate Geometry Forcing
on both camera view-conditioned and action-conditioned video generation tasks.
Experimental results demonstrate that our method substantially improves visual
quality and 3D consistency over the baseline methods. Project page:
https://GeometryForcing.github.io.