Kwantitatieve Evaluatie van Videowereldmodellen voor Geometrische Consistentie
Quantitative Video World Model Evaluation for Geometric-Consistency
May 14, 2026
Auteurs: Jiaxin Wu, Yihao Pi, Yinling Zhang, Yuheng Li, Xueyan Zou
cs.AI
Samenvatting
Generatieve videomodellen worden steeds vaker bestudeerd als impliciete wereldmodellen, maar het evalueren of ze fysiek plausibele 3D-structuur en beweging produceren blijft uitdagend. De meeste bestaande video-evaluatiepijplijnen zijn sterk afhankelijk van menselijk oordeel of aangeleerde beoordelaars, wat subjectief kan zijn en zwak diagnostisch voor geometrische fouten. Wij introduceren PDI-Bench (Perspective Distortion Index), een kwantitatief raamwerk voor het controleren van geometrische coherentie in gegenereerde video's. Gegeven een gegenereerde clip verkrijgen we objectgecentreerde observaties via segmentatie en puntvolging (bijv. SAM 2, MegaSaM en CoTracker3), transformeren we ze naar 3D-wereldruimtecoördinaten via monoculaire reconstructie, en berekenen we een reeks residuen van projectieve geometrie die drie faaldimensies vastleggen: schaal-diepte-uitlijning, 3D-bewegingsconsistentie en 3D-structurele stijfheid. Om systematische evaluatie te ondersteunen, bouwen we de PDI-Dataset, die diverse scenario's omvat die ontworpen zijn om deze geometrische beperkingen uit te dagen. Bij state-of-the-art videogeneratoren onthult PDI consistente geometriespecifieke faalmodi die niet worden gevangen door gangbare perceptuele metrieken, en biedt het een diagnostisch signaal voor vooruitgang richting fysiek gefundeerde videogeneratie en een fysiek wereldmodel. Onze code en dataset zijn te vinden op https://pdi-bench.github.io/.
English
Generative video models are increasingly studied as implicit world models, yet evaluating whether they produce physically plausible 3D structure and motion remains challenging. Most existing video evaluation pipelines rely heavily on human judgment or learned graders, which can be subjective and weakly diagnostic for geometric failures. We introduce PDI-Bench (Perspective Distortion Index), a quantitative framework for auditing geometric coherence in generated videos. Given a generated clip, we obtain object-centric observations via segmentation and point tracking (e.g., SAM 2, MegaSaM, and CoTracker3), lift them to 3D world-space coordinates via monocular reconstruction, and compute a set of projective-geometry residuals capturing three failure dimensions: scale-depth alignment, 3D motion consistency, and 3D structural rigidity. To support systematic evaluation, we build PDI-Dataset, covering diverse scenarios designed to stress these geometric constraints. Across state-of-the-art video generators, PDI reveals consistent geometry-specific failure modes that are not captured by common perceptual metrics, and provides a diagnostic signal for progress toward physically grounded video generation and physical world model. Our code and dataset can be found at https://pdi-bench.github.io/.