ChatPaper.aiChatPaper

PAI-Bench:物理的AIのための包括的ベンチマーク

PAI-Bench: A Comprehensive Benchmark For Physical AI

December 1, 2025
著者: Fengzhe Zhou, Jiannan Huang, Jialuo Li, Deva Ramanan, Humphrey Shi
cs.AI

要旨

Physical AIは、現実世界の力学を認識・予測するモデルの構築を目指すが、現在のマルチモーダル大規模言語モデルや映像生成モデルがこれらの能力をどの程度備えているかは十分に解明されていない。本研究では、映像生成、条件付き映像生成、映像理解における認識・予測能力を評価する統合的なベンチマークPhysical AI Bench(PAI-Bench)を提案する。これは2,808件の実世界事例から構成され、物理的な整合性と領域特化的な推論を捉えるよう設計されたタスク対応指標を備える。最新モデルに対する体系的な評価により、映像生成モデルは視覚的な忠実度が高いにもかかわらず物理的に一貫した力学表現に課題があり、マルチモーダル大規模言語モデルは予測と因果解釈において限定的な性能を示すことが明らかになった。これらの知見は、現行システムがPhysical AIの認知的・予測的要求に対応する初期段階にあることを示唆する。総じてPAI-Benchは、Physical AI評価の現実的な基盤を確立し、将来のシステムが解決すべき重要な課題を浮き彫りにする。
English
Physical AI aims to develop models that can perceive and predict real-world dynamics; yet, the extent to which current multi-modal large language models and video generative models support these abilities is insufficiently understood. We introduce Physical AI Bench (PAI-Bench), a unified and comprehensive benchmark that evaluates perception and prediction capabilities across video generation, conditional video generation, and video understanding, comprising 2,808 real-world cases with task-aligned metrics designed to capture physical plausibility and domain-specific reasoning. Our study provides a systematic assessment of recent models and shows that video generative models, despite strong visual fidelity, often struggle to maintain physically coherent dynamics, while multi-modal large language models exhibit limited performance in forecasting and causal interpretation. These observations suggest that current systems are still at an early stage in handling the perceptual and predictive demands of Physical AI. In summary, PAI-Bench establishes a realistic foundation for evaluating Physical AI and highlights key gaps that future systems must address.
PDF41December 4, 2025