ChatPaper.aiChatPaper

PAI-Bench : Un Benchmark Complet pour l'Intelligence Artificielle Physique

PAI-Bench: A Comprehensive Benchmark For Physical AI

December 1, 2025
papers.authors: Fengzhe Zhou, Jiannan Huang, Jialuo Li, Deva Ramanan, Humphrey Shi
cs.AI

papers.abstract

L'IA physique vise à développer des modèles capables de percevoir et de prédire les dynamiques du monde réel ; pourtant, la mesure dans laquelle les modèles de langage multimodaux et les modèles génératifs vidéo actuels soutiennent ces capacités reste insuffisamment comprise. Nous présentons Physical AI Bench (PAI-Bench), un benchmark unifié et complet qui évalue les capacités de perception et de prédiction à travers la génération vidéo, la génération vidéo conditionnelle et la compréhension vidéo, comprenant 2 808 cas du monde réel avec des métriques alignées sur les tâches conçues pour capturer la plausibilité physique et le raisonnement spécifique au domaine. Notre étude fournit une évaluation systématique des modèles récents et montre que les modèles génératifs vidéo, malgré une forte fidélité visuelle, peinent souvent à maintenir des dynamiques physiquement cohérentes, tandis que les modèles de langage multimodaux présentent des performances limitées en prévision et en interprétation causale. Ces observations suggèrent que les systèmes actuels en sont encore à un stade précoce dans la gestion des exigences perceptives et prédictives de l'IA physique. En résumé, PAI-Bench établit une base réaliste pour évaluer l'IA physique et met en lumière les lacunes clés que les futurs systèmes devront combler.
English
Physical AI aims to develop models that can perceive and predict real-world dynamics; yet, the extent to which current multi-modal large language models and video generative models support these abilities is insufficiently understood. We introduce Physical AI Bench (PAI-Bench), a unified and comprehensive benchmark that evaluates perception and prediction capabilities across video generation, conditional video generation, and video understanding, comprising 2,808 real-world cases with task-aligned metrics designed to capture physical plausibility and domain-specific reasoning. Our study provides a systematic assessment of recent models and shows that video generative models, despite strong visual fidelity, often struggle to maintain physically coherent dynamics, while multi-modal large language models exhibit limited performance in forecasting and causal interpretation. These observations suggest that current systems are still at an early stage in handling the perceptual and predictive demands of Physical AI. In summary, PAI-Bench establishes a realistic foundation for evaluating Physical AI and highlights key gaps that future systems must address.
PDF41December 4, 2025