기하학적 강제: 비디오 확산과 3D 표현의 결합을 통한 일관된 세계 모델링
Geometry Forcing: Marrying Video Diffusion and 3D Representation for Consistent World Modeling
July 10, 2025
저자: Haoyu Wu, Diankun Wu, Tianyu He, Junliang Guo, Yang Ye, Yueqi Duan, Jiang Bian
cs.AI
초록
비디오는 본질적으로 동적인 3D 세계의 2D 투영을 나타냅니다. 그러나 우리의 분석에 따르면, 원시 비디오 데이터만으로 훈련된 비디오 확산 모델은 종종 학습된 표현에서 의미 있는 기하학적 구조를 포착하지 못합니다. 비디오 확산 모델과 물리적 세계의 근본적인 3D 특성 간의 격차를 해소하기 위해, 우리는 Geometry Forcing이라는 간단하지만 효과적인 방법을 제안합니다. 이 방법은 비디오 확산 모델이 잠재적인 3D 표현을 내재화하도록 유도합니다. 우리의 핵심 통찰은 사전 훈련된 기하학적 기초 모델의 특징과 중간 표현을 정렬함으로써 모델의 중간 표현을 기하학적 구조를 인지하는 방향으로 유도하는 것입니다. 이를 위해 우리는 두 가지 상호 보완적인 정렬 목표를 도입합니다: 코사인 유사성을 통해 방향 일관성을 강제하는 Angular Alignment와 정규화된 확산 표현에서 비정규화된 기하학적 특징을 회귀함으로써 스케일 관련 정보를 보존하는 Scale Alignment입니다. 우리는 Geometry Forcing을 카메라 뷰 조건 및 동작 조건 비디오 생성 작업에서 평가합니다. 실험 결과는 우리의 방법이 기준 방법들에 비해 시각적 품질과 3D 일관성을 크게 향상시킨다는 것을 보여줍니다. 프로젝트 페이지: https://GeometryForcing.github.io.
English
Videos inherently represent 2D projections of a dynamic 3D world. However,
our analysis suggests that video diffusion models trained solely on raw video
data often fail to capture meaningful geometric-aware structure in their
learned representations. To bridge this gap between video diffusion models and
the underlying 3D nature of the physical world, we propose Geometry Forcing, a
simple yet effective method that encourages video diffusion models to
internalize latent 3D representations. Our key insight is to guide the model's
intermediate representations toward geometry-aware structure by aligning them
with features from a pretrained geometric foundation model. To this end, we
introduce two complementary alignment objectives: Angular Alignment, which
enforces directional consistency via cosine similarity, and Scale Alignment,
which preserves scale-related information by regressing unnormalized geometric
features from normalized diffusion representation. We evaluate Geometry Forcing
on both camera view-conditioned and action-conditioned video generation tasks.
Experimental results demonstrate that our method substantially improves visual
quality and 3D consistency over the baseline methods. Project page:
https://GeometryForcing.github.io.