Avaliação Quantitativa de Modelo de Mundo de Vídeo para Consistência Geométrica

Resumo

Modelos de vídeo generativos são cada vez mais estudados como modelos de mundo implícitos, no entanto, avaliar se eles produzem estrutura 3D e movimento fisicamente plausíveis continua sendo um desafio. A maioria dos pipelines de avaliação de vídeo existentes depende fortemente de julgamento humano ou classificadores aprendidos, que podem ser subjetivos e pouco diagnósticos para falhas geométricas. Apresentamos o PDI-Bench (Índice de Distorção de Perspectiva), uma estrutura quantitativa para auditar a coerência geométrica em vídeos gerados. Dado um clipe gerado, obtemos observações centradas em objetos por meio de segmentação e rastreamento de pontos (por exemplo, SAM 2, MegaSaM e CoTracker3), elevamos essas observações para coordenadas 3D do espaço mundial via reconstrução monocular e calculamos um conjunto de resíduos de geometria projetiva que capturam três dimensões de falha: alinhamento escala-profundidade, consistência de movimento 3D e rigidez estrutural 3D. Para apoiar a avaliação sistemática, construímos o PDI-Dataset, abrangendo diversos cenários projetados para estressar essas restrições geométricas. Em geradores de vídeo de última geração, o PDI revela modos de falha consistentes e específicos de geometria que não são capturados por métricas perceptuais comuns, e fornece um sinal diagnóstico para o progresso em direção à geração de vídeo fisicamente fundamentada e ao modelo de mundo físico. Nosso código e conjunto de dados podem ser encontrados em https://pdi-bench.github.io/.

English

Generative video models are increasingly studied as implicit world models, yet evaluating whether they produce physically plausible 3D structure and motion remains challenging. Most existing video evaluation pipelines rely heavily on human judgment or learned graders, which can be subjective and weakly diagnostic for geometric failures. We introduce PDI-Bench (Perspective Distortion Index), a quantitative framework for auditing geometric coherence in generated videos. Given a generated clip, we obtain object-centric observations via segmentation and point tracking (e.g., SAM 2, MegaSaM, and CoTracker3), lift them to 3D world-space coordinates via monocular reconstruction, and compute a set of projective-geometry residuals capturing three failure dimensions: scale-depth alignment, 3D motion consistency, and 3D structural rigidity. To support systematic evaluation, we build PDI-Dataset, covering diverse scenarios designed to stress these geometric constraints. Across state-of-the-art video generators, PDI reveals consistent geometry-specific failure modes that are not captured by common perceptual metrics, and provides a diagnostic signal for progress toward physically grounded video generation and physical world model. Our code and dataset can be found at https://pdi-bench.github.io/.