Количественная оценка модели мира видео для геометрической согласованности

Аннотация

Генеративные модели видео всё чаще исследуются в качестве неявных мировых моделей, однако оценка того, создают ли они физически правдоподобную трёхмерную структуру и движение, остаётся сложной задачей. Большинство существующих подходов к оценке видео в значительной степени полагаются на человеческие суждения или обученные классификаторы, что может быть субъективным и слабо диагностическим для геометрических ошибок. Мы представляем PDI-Bench (Индекс искажения перспективы) — количественную структуру для аудита геометрической согласованности в сгенерированных видео. Для заданного видеоклипа мы получаем объектно-ориентированные наблюдения с помощью сегментации и отслеживания точек (например, SAM 2, MegaSaM и CoTracker3), преобразуем их в трёхмерные мировые координаты с помощью монокулярной реконструкции и вычисляем набор остаточных величин проективной геометрии, охватывающих три аспекта нарушений: согласованность масштаба и глубины, согласованность трёхмерного движения и жёсткость трёхмерной структуры. Для поддержки систематической оценки мы создали PDI-Dataset, охватывающий разнообразные сценарии, предназначенные для проверки этих геометрических ограничений. Для современных генераторов видео PDI выявляет характерные для геометрии типы отказов, которые не учитываются распространёнными перцептивными метриками, и предоставляет диагностический сигнал для продвижения к физически обоснованной генерации видео и модели физического мира. Наш код и набор данных доступны по адресу https://pdi-bench.github.io/.

English

Generative video models are increasingly studied as implicit world models, yet evaluating whether they produce physically plausible 3D structure and motion remains challenging. Most existing video evaluation pipelines rely heavily on human judgment or learned graders, which can be subjective and weakly diagnostic for geometric failures. We introduce PDI-Bench (Perspective Distortion Index), a quantitative framework for auditing geometric coherence in generated videos. Given a generated clip, we obtain object-centric observations via segmentation and point tracking (e.g., SAM 2, MegaSaM, and CoTracker3), lift them to 3D world-space coordinates via monocular reconstruction, and compute a set of projective-geometry residuals capturing three failure dimensions: scale-depth alignment, 3D motion consistency, and 3D structural rigidity. To support systematic evaluation, we build PDI-Dataset, covering diverse scenarios designed to stress these geometric constraints. Across state-of-the-art video generators, PDI reveals consistent geometry-specific failure modes that are not captured by common perceptual metrics, and provides a diagnostic signal for progress toward physically grounded video generation and physical world model. Our code and dataset can be found at https://pdi-bench.github.io/.