PAI-Bench: 물리적 AI를 위한 포괄적 벤치마크
PAI-Bench: A Comprehensive Benchmark For Physical AI
December 1, 2025
저자: Fengzhe Zhou, Jiannan Huang, Jialuo Li, Deva Ramanan, Humphrey Shi
cs.AI
초록
Physical AI는 현실 세계의 역학을 인지하고 예측할 수 있는 모델 개발을 목표로 하지만, 현재의 다중 모달 대규모 언어 모델 및 영상 생성 모델이 이러한 능력을 어느 정도 지원하는지는 충분히 규명되지 않았습니다. 본 연구에서는 물리적 타당성과 영역 특화 추론 능력을 평가하기 위한 과제 맞춤형 지표를 갖춘 2,808개의 현실 세계 사례로 구성된 통합적이고 포괄적인 벤치마크인 Physical AI Bench(PAI-Bench)를 소개합니다. PAI-Bench는 영상 생성, 조건부 영상 생성, 영상 이해 분야에 걸친 인지 및 예측 능력을 평가합니다. 우리의 연구는 최신 모델들을 체계적으로 평가한 결과, 영상 생성 모델들은 높은 시각적 정확도에도 불구하고 물리적으로 일관된 역학을 유지하는 데 종종 어려움을 겪는 반면, 다중 모달 대규모 언어 모델들은 예측 및 인과 관계 해석에서 제한된 성능을 보임을 확인했습니다. 이러한 관찰 결과는 현재 시스템들이 Physical AI의 인지 및 예측 요구 사항을 처리하는 데 여전히 초기 단계에 있음을 시사합니다. 요약하면, PAI-Bench는 Physical AI 평가를 위한 현실적인 기준을 마련하고 향후 시스템이 반드시 해결해야 할 핵심 격차를 부각시킵니다.
English
Physical AI aims to develop models that can perceive and predict real-world dynamics; yet, the extent to which current multi-modal large language models and video generative models support these abilities is insufficiently understood. We introduce Physical AI Bench (PAI-Bench), a unified and comprehensive benchmark that evaluates perception and prediction capabilities across video generation, conditional video generation, and video understanding, comprising 2,808 real-world cases with task-aligned metrics designed to capture physical plausibility and domain-specific reasoning. Our study provides a systematic assessment of recent models and shows that video generative models, despite strong visual fidelity, often struggle to maintain physically coherent dynamics, while multi-modal large language models exhibit limited performance in forecasting and causal interpretation. These observations suggest that current systems are still at an early stage in handling the perceptual and predictive demands of Physical AI. In summary, PAI-Bench establishes a realistic foundation for evaluating Physical AI and highlights key gaps that future systems must address.