Évaluation quantitative d'un modèle de monde vidéo pour la cohérence géométrique

Résumé

Les modèles vidéo génératifs sont de plus en plus étudiés en tant que modèles du monde implicites, mais il reste difficile d'évaluer s'ils produisent une structure et un mouvement 3D physiquement plausibles. La plupart des pipelines d'évaluation vidéo existants reposent fortement sur le jugement humain ou des évaluateurs appris, ce qui peut être subjectif et peu diagnostique pour les défaillances géométriques. Nous introduisons PDI-Bench (Indice de Distorsion de Perspective), un cadre quantitatif pour auditer la cohérence géométrique dans les vidéos générées. À partir d'un clip généré, nous obtenons des observations centrées sur les objets via segmentation et suivi de points (par exemple, SAM 2, MegaSaM et CoTracker3), les projetons en coordonnées 3D de l'espace monde par reconstruction monoculaire, et calculons un ensemble de résidus de géométrie projective couvrant trois dimensions de défaillance : l'alignement échelle-profondeur, la cohérence du mouvement 3D et la rigidité structurelle 3D. Pour soutenir une évaluation systématique, nous construisons PDI-Dataset, couvrant divers scénarios conçus pour mettre à l'épreuve ces contraintes géométriques. Sur les générateurs vidéo de pointe, PDI révèle des modes de défaillance cohérents et spécifiques à la géométrie qui ne sont pas capturés par les métriques perceptuelles courantes, et fournit un signal diagnostique pour progresser vers une génération vidéo ancrée physiquement et un modèle du monde physique. Notre code et notre jeu de données sont disponibles à l'adresse https://pdi-bench.github.io/.

English

Generative video models are increasingly studied as implicit world models, yet evaluating whether they produce physically plausible 3D structure and motion remains challenging. Most existing video evaluation pipelines rely heavily on human judgment or learned graders, which can be subjective and weakly diagnostic for geometric failures. We introduce PDI-Bench (Perspective Distortion Index), a quantitative framework for auditing geometric coherence in generated videos. Given a generated clip, we obtain object-centric observations via segmentation and point tracking (e.g., SAM 2, MegaSaM, and CoTracker3), lift them to 3D world-space coordinates via monocular reconstruction, and compute a set of projective-geometry residuals capturing three failure dimensions: scale-depth alignment, 3D motion consistency, and 3D structural rigidity. To support systematic evaluation, we build PDI-Dataset, covering diverse scenarios designed to stress these geometric constraints. Across state-of-the-art video generators, PDI reveals consistent geometry-specific failure modes that are not captured by common perceptual metrics, and provides a diagnostic signal for progress toward physically grounded video generation and physical world model. Our code and dataset can be found at https://pdi-bench.github.io/.