幾何学的整合性に関する定量的ビデオ世界モデル評価
Quantitative Video World Model Evaluation for Geometric-Consistency
May 14, 2026
著者: Jiaxin Wu, Yihao Pi, Yinling Zhang, Yuheng Li, Xueyan Zou
cs.AI
要旨
生成ビデオモデルは暗黙の世界モデルとしてますます研究されているが、物理的に妥当な3次元構造と動きを生成するかどうかの評価は依然として困難である。既存のビデオ評価パイプラインのほとんどは人間の判断や学習された評価器に大きく依存しており、幾何学的な破綻に対して主観的で診断力が弱い。本稿では、生成ビデオにおける幾何学的整合性を監査するための定量的フレームワークであるPDI-Bench(Perspective Distortion Index)を提案する。生成されたクリップに対し、セグメンテーションと点追跡(例:SAM 2、MegaSaM、CoTracker3)により物体中心の観測を取得し、単眼再構成を介して3次元ワールド空間座標に変換し、三つの破綻次元(スケール-深度の整合性、3次元動作の一貫性、3次元構造の剛性)を捉える一連の射影幾何残差を計算する。系統的な評価を支援するため、これらの幾何制約を強調するよう設計された多様なシナリオを網羅するPDI-Datasetを構築した。最先端のビデオ生成モデルを対象に、PDIは一般的な知覚指標では捉えられない一貫した幾何固有の破綻モードを明らかにし、物理的に基づいたビデオ生成および物理世界モデルへの進歩に向けた診断シグナルを提供する。コードとデータセットはhttps://pdi-bench.github.io/で公開している。
English
Generative video models are increasingly studied as implicit world models, yet evaluating whether they produce physically plausible 3D structure and motion remains challenging. Most existing video evaluation pipelines rely heavily on human judgment or learned graders, which can be subjective and weakly diagnostic for geometric failures. We introduce PDI-Bench (Perspective Distortion Index), a quantitative framework for auditing geometric coherence in generated videos. Given a generated clip, we obtain object-centric observations via segmentation and point tracking (e.g., SAM 2, MegaSaM, and CoTracker3), lift them to 3D world-space coordinates via monocular reconstruction, and compute a set of projective-geometry residuals capturing three failure dimensions: scale-depth alignment, 3D motion consistency, and 3D structural rigidity. To support systematic evaluation, we build PDI-Dataset, covering diverse scenarios designed to stress these geometric constraints. Across state-of-the-art video generators, PDI reveals consistent geometry-specific failure modes that are not captured by common perceptual metrics, and provides a diagnostic signal for progress toward physically grounded video generation and physical world model. Our code and dataset can be found at https://pdi-bench.github.io/.