ChatPaper.aiChatPaper

Geometry Forcing: Die Verbindung von Video-Diffusion und 3D-Repräsentation für konsistente Weltmodellierung

Geometry Forcing: Marrying Video Diffusion and 3D Representation for Consistent World Modeling

July 10, 2025
papers.authors: Haoyu Wu, Diankun Wu, Tianyu He, Junliang Guo, Yang Ye, Yueqi Duan, Jiang Bian
cs.AI

papers.abstract

Videos stellen von Natur aus 2D-Projektionen einer dynamischen 3D-Welt dar. Unsere Analyse zeigt jedoch, dass Video-Diffusionsmodelle, die ausschließlich auf Rohvideodaten trainiert werden, oft keine sinnvolle geometrie-bewusste Struktur in ihren gelernten Repräsentationen erfassen. Um diese Lücke zwischen Video-Diffusionsmodellen und der zugrunde liegenden 3D-Natur der physischen Welt zu schließen, schlagen wir Geometry Forcing vor, eine einfache, aber effektive Methode, die Video-Diffusionsmodelle dazu anregt, latente 3D-Repräsentationen zu internalisieren. Unser zentraler Ansatz besteht darin, die Zwischenrepräsentationen des Modells in Richtung einer geometrie-bewussten Struktur zu lenken, indem sie mit Merkmalen eines vortrainierten geometrischen Grundlagenmodells abgeglichen werden. Zu diesem Zweck führen wir zwei komplementäre Abgleichsziele ein: Angular Alignment, das durch Kosinusähnlichkeit eine Richtungskonsistenz erzwingt, und Scale Alignment, das skalierungsbezogene Informationen bewahrt, indem unnormalisierte geometrische Merkmale aus normalisierten Diffusionsrepräsentationen regressiert werden. Wir evaluieren Geometry Forcing sowohl bei kamerablick-bedingten als auch bei aktionsbedingten Video-Generierungsaufgaben. Die experimentellen Ergebnisse zeigen, dass unsere Methode die visuelle Qualität und 3D-Konsistenz im Vergleich zu den Baseline-Methoden erheblich verbessert. Projektseite: https://GeometryForcing.github.io.
English
Videos inherently represent 2D projections of a dynamic 3D world. However, our analysis suggests that video diffusion models trained solely on raw video data often fail to capture meaningful geometric-aware structure in their learned representations. To bridge this gap between video diffusion models and the underlying 3D nature of the physical world, we propose Geometry Forcing, a simple yet effective method that encourages video diffusion models to internalize latent 3D representations. Our key insight is to guide the model's intermediate representations toward geometry-aware structure by aligning them with features from a pretrained geometric foundation model. To this end, we introduce two complementary alignment objectives: Angular Alignment, which enforces directional consistency via cosine similarity, and Scale Alignment, which preserves scale-related information by regressing unnormalized geometric features from normalized diffusion representation. We evaluate Geometry Forcing on both camera view-conditioned and action-conditioned video generation tasks. Experimental results demonstrate that our method substantially improves visual quality and 3D consistency over the baseline methods. Project page: https://GeometryForcing.github.io.
PDF232July 11, 2025