Quantitative Evaluierung von Video-Weltmodellen für geometrische Konsistenz

Zusammenfassung

Generative Videomodelle werden zunehmend als implizite Weltmodelle untersucht, doch die Bewertung, ob sie physikalisch plausible 3D-Strukturen und Bewegungen erzeugen, bleibt eine Herausforderung. Die meisten bestehenden Videoauswertungspipelines stützen sich stark auf menschliche Urteile oder erlernte Bewerter, was subjektiv sein und geometrische Fehler nur schwach diagnostizieren kann. Wir stellen PDI-Bench (Perspective Distortion Index) vor, ein quantitatives Rahmenwerk zur Prüfung der geometrischen Kohärenz in generierten Videos. Ausgehend von einem generierten Clip gewinnen wir objektzentrierte Beobachtungen mittels Segmentierung und Punktverfolgung (z. B. SAM 2, MegaSaM und CoTracker3), heben diese mittels monokularer Rekonstruktion in 3D-Weltkoordinaten an und berechnen eine Reihe von Residuen der projektiven Geometrie, die drei Fehlerdimensionen erfassen: Skalen-Tiefen-Abgleich, 3D-Bewegungskonsistenz und 3D-Struktursteifigkeit. Zur Unterstützung einer systematischen Evaluation erstellen wir PDI-Dataset, das verschiedene Szenarien abdeckt, die diese geometrischen Randbedingungen beanspruchen. Bei modernsten Videogeneratoren deckt PDI konsistente geometriespezifische Fehlermodi auf, die von gängigen perzeptuellen Metriken nicht erfasst werden, und liefert ein diagnostisches Signal für Fortschritte hin zu physikalisch fundierter Videogenerierung und physikalischen Weltmodellen. Unser Code und Datensatz sind verfügbar unter https://pdi-bench.github.io/.

English

Generative video models are increasingly studied as implicit world models, yet evaluating whether they produce physically plausible 3D structure and motion remains challenging. Most existing video evaluation pipelines rely heavily on human judgment or learned graders, which can be subjective and weakly diagnostic for geometric failures. We introduce PDI-Bench (Perspective Distortion Index), a quantitative framework for auditing geometric coherence in generated videos. Given a generated clip, we obtain object-centric observations via segmentation and point tracking (e.g., SAM 2, MegaSaM, and CoTracker3), lift them to 3D world-space coordinates via monocular reconstruction, and compute a set of projective-geometry residuals capturing three failure dimensions: scale-depth alignment, 3D motion consistency, and 3D structural rigidity. To support systematic evaluation, we build PDI-Dataset, covering diverse scenarios designed to stress these geometric constraints. Across state-of-the-art video generators, PDI reveals consistent geometry-specific failure modes that are not captured by common perceptual metrics, and provides a diagnostic signal for progress toward physically grounded video generation and physical world model. Our code and dataset can be found at https://pdi-bench.github.io/.