ChatPaper.aiChatPaper

PAI-Bench: Een Uitgebreide Benchmark voor Fysieke Kunstmatige Intelligentie

PAI-Bench: A Comprehensive Benchmark For Physical AI

December 1, 2025
Auteurs: Fengzhe Zhou, Jiannan Huang, Jialuo Li, Deva Ramanan, Humphrey Shi
cs.AI

Samenvatting

Physical AI streeft naar de ontwikkeling van modellen die real-world dynamiek kunnen waarnemen en voorspellen; echter, de mate waarin huidige multimodale large language modellen en videogeneratieve modellen deze vaardigheden ondersteunen, is onvoldoende begrepen. Wij introduceren Physical AI Bench (PAI-Bench), een uniforme en uitgebreide benchmark die waarnemings- en voorspellingscapaciteiten evalueert op het gebied van videogeneratie, conditionele videogeneratie en videobegrip. De benchmark omvat 2.808 real-world gevallen met taakgerichte metrieken die zijn ontworpen om fysieke plausibiliteit en domeinspecifiek redeneren vast te leggen. Onze studie biedt een systematische evaluatie van recente modellen en toont aan dat videogeneratieve modellen, ondanks sterke visuele geloofwaardigheid, vaak moeite hebben om fysiek coherente dynamiek te behouden, terwijl multimodale large language modellen beperkte prestaties vertonen in voorspelling en causale interpretatie. Deze observaties suggereren dat huidige systemen zich nog in een vroeg stadium bevinden wat betreft het omgaan met de waarnemings- en voorspellingsvereisten van Physical AI. Samenvattend legt PAI-Bench een realistische basis voor de evaluatie van Physical AI en benadrukt het cruciale tekortkomingen die toekomstige systemen moeten aanpakken.
English
Physical AI aims to develop models that can perceive and predict real-world dynamics; yet, the extent to which current multi-modal large language models and video generative models support these abilities is insufficiently understood. We introduce Physical AI Bench (PAI-Bench), a unified and comprehensive benchmark that evaluates perception and prediction capabilities across video generation, conditional video generation, and video understanding, comprising 2,808 real-world cases with task-aligned metrics designed to capture physical plausibility and domain-specific reasoning. Our study provides a systematic assessment of recent models and shows that video generative models, despite strong visual fidelity, often struggle to maintain physically coherent dynamics, while multi-modal large language models exhibit limited performance in forecasting and causal interpretation. These observations suggest that current systems are still at an early stage in handling the perceptual and predictive demands of Physical AI. In summary, PAI-Bench establishes a realistic foundation for evaluating Physical AI and highlights key gaps that future systems must address.
PDF41December 4, 2025