Geometria Forçada: Unindo Difusão de Vídeo e Representação 3D para Modelagem Consistente de Mundos
Geometry Forcing: Marrying Video Diffusion and 3D Representation for Consistent World Modeling
July 10, 2025
Autores: Haoyu Wu, Diankun Wu, Tianyu He, Junliang Guo, Yang Ye, Yueqi Duan, Jiang Bian
cs.AI
Resumo
Os vídeos representam inerentemente projeções 2D de um mundo 3D dinâmico. No entanto, nossa análise sugere que os modelos de difusão de vídeo treinados exclusivamente em dados brutos de vídeo frequentemente falham em capturar uma estrutura significativa e geometricamente consciente em suas representações aprendidas. Para preencher essa lacuna entre os modelos de difusão de vídeo e a natureza 3D subjacente do mundo físico, propomos o Geometry Forcing, um método simples, porém eficaz, que incentiva os modelos de difusão de vídeo a internalizar representações latentes 3D. Nossa principal percepção é guiar as representações intermediárias do modelo em direção a uma estrutura geometricamente consciente, alinhando-as com as características de um modelo geométrico de fundo pré-treinado. Para isso, introduzimos dois objetivos de alinhamento complementares: o Alinhamento Angular, que impõe consistência direcional por meio da similaridade de cosseno, e o Alinhamento de Escala, que preserva informações relacionadas à escala ao regredir características geométricas não normalizadas a partir da representação de difusão normalizada. Avaliamos o Geometry Forcing em tarefas de geração de vídeo condicionadas à visão da câmera e à ação. Os resultados experimentais demonstram que nosso método melhora substancialmente a qualidade visual e a consistência 3D em relação aos métodos de linha de base. Página do projeto: https://GeometryForcing.github.io.
English
Videos inherently represent 2D projections of a dynamic 3D world. However,
our analysis suggests that video diffusion models trained solely on raw video
data often fail to capture meaningful geometric-aware structure in their
learned representations. To bridge this gap between video diffusion models and
the underlying 3D nature of the physical world, we propose Geometry Forcing, a
simple yet effective method that encourages video diffusion models to
internalize latent 3D representations. Our key insight is to guide the model's
intermediate representations toward geometry-aware structure by aligning them
with features from a pretrained geometric foundation model. To this end, we
introduce two complementary alignment objectives: Angular Alignment, which
enforces directional consistency via cosine similarity, and Scale Alignment,
which preserves scale-related information by regressing unnormalized geometric
features from normalized diffusion representation. We evaluate Geometry Forcing
on both camera view-conditioned and action-conditioned video generation tasks.
Experimental results demonstrate that our method substantially improves visual
quality and 3D consistency over the baseline methods. Project page:
https://GeometryForcing.github.io.