Evaluación Cuantitativa de Modelos de Mundo en Video para Consistencia Geométrica

Resumen

Los modelos generativos de video se estudian cada vez más como modelos implícitos del mundo, sin embargo, evaluar si producen estructura y movimiento 3D físicamente plausibles sigue siendo un desafío. La mayoría de los pipelines de evaluación de video existentes dependen en gran medida del juicio humano o de evaluadores aprendidos, lo que puede ser subjetivo y débilmente diagnóstico para fallas geométricas. Presentamos PDI-Bench (Índice de Distorsión de Perspectiva), un marco cuantitativo para auditar la coherencia geométrica en videos generados. Dado un clip generado, obtenemos observaciones centradas en objetos mediante segmentación y seguimiento de puntos (por ejemplo, SAM 2, MegaSaM y CoTracker3), los elevamos a coordenadas del espacio mundial 3D mediante reconstrucción monocular, y calculamos un conjunto de residuos de geometría proyectiva que capturan tres dimensiones de falla: alineación escala-profundidad, consistencia del movimiento 3D y rigidez estructural 3D. Para apoyar la evaluación sistemática, construimos PDI-Dataset, que cubre diversos escenarios diseñados para estresar estas restricciones geométricas. A través de generadores de video de última generación, PDI revela modos de falla consistentes y específicos de la geometría que no son capturados por las métricas perceptuales comunes, y proporciona una señal diagnóstica para el progreso hacia la generación de video físicamente fundamentada y el modelo del mundo físico. Nuestro código y conjunto de datos se pueden encontrar en https://pdi-bench.github.io/.

English

Generative video models are increasingly studied as implicit world models, yet evaluating whether they produce physically plausible 3D structure and motion remains challenging. Most existing video evaluation pipelines rely heavily on human judgment or learned graders, which can be subjective and weakly diagnostic for geometric failures. We introduce PDI-Bench (Perspective Distortion Index), a quantitative framework for auditing geometric coherence in generated videos. Given a generated clip, we obtain object-centric observations via segmentation and point tracking (e.g., SAM 2, MegaSaM, and CoTracker3), lift them to 3D world-space coordinates via monocular reconstruction, and compute a set of projective-geometry residuals capturing three failure dimensions: scale-depth alignment, 3D motion consistency, and 3D structural rigidity. To support systematic evaluation, we build PDI-Dataset, covering diverse scenarios designed to stress these geometric constraints. Across state-of-the-art video generators, PDI reveals consistent geometry-specific failure modes that are not captured by common perceptual metrics, and provides a diagnostic signal for progress toward physically grounded video generation and physical world model. Our code and dataset can be found at https://pdi-bench.github.io/.