ジオメトリ強制:ビデオ拡散と3D表現を統合した一貫性のある世界モデリング
Geometry Forcing: Marrying Video Diffusion and 3D Representation for Consistent World Modeling
July 10, 2025
著者: Haoyu Wu, Diankun Wu, Tianyu He, Junliang Guo, Yang Ye, Yueqi Duan, Jiang Bian
cs.AI
要旨
ビデオは本質的に、動的な3D世界の2D投影を表しています。しかし、私たちの分析によると、生のビデオデータのみで訓練されたビデオ拡散モデルは、その学習された表現において意味のある幾何学的構造を捉えることがしばしば失敗します。ビデオ拡散モデルと物理世界の根底にある3D性質との間のギャップを埋めるために、私たちはGeometry Forcingを提案します。これは、ビデオ拡散モデルが潜在的な3D表現を内在化することを促す、シンプルでありながら効果的な方法です。私たちの重要な洞察は、モデルの中間表現を、事前訓練された幾何学的基盤モデルからの特徴と整合させることで、幾何学的構造を意識した方向に導くことです。この目的のために、2つの補完的な整合目標を導入します:Angular Alignmentは、コサイン類似度を通じて方向の一貫性を強制し、Scale Alignmentは、正規化された拡散表現から非正規化された幾何学的特徴を回帰することで、スケール関連の情報を保持します。私たちはGeometry Forcingを、カメラビュー条件付きおよびアクション条件付きのビデオ生成タスクの両方で評価します。実験結果は、私たちの方法がベースラインメソッドに比べて視覚的品質と3D一貫性を大幅に向上させることを示しています。プロジェクトページ:https://GeometryForcing.github.io。
English
Videos inherently represent 2D projections of a dynamic 3D world. However,
our analysis suggests that video diffusion models trained solely on raw video
data often fail to capture meaningful geometric-aware structure in their
learned representations. To bridge this gap between video diffusion models and
the underlying 3D nature of the physical world, we propose Geometry Forcing, a
simple yet effective method that encourages video diffusion models to
internalize latent 3D representations. Our key insight is to guide the model's
intermediate representations toward geometry-aware structure by aligning them
with features from a pretrained geometric foundation model. To this end, we
introduce two complementary alignment objectives: Angular Alignment, which
enforces directional consistency via cosine similarity, and Scale Alignment,
which preserves scale-related information by regressing unnormalized geometric
features from normalized diffusion representation. We evaluate Geometry Forcing
on both camera view-conditioned and action-conditioned video generation tasks.
Experimental results demonstrate that our method substantially improves visual
quality and 3D consistency over the baseline methods. Project page:
https://GeometryForcing.github.io.