ChatPaper.aiChatPaper

PAI-Bench: Комплексный бенчмарк для физического искусственного интеллекта

PAI-Bench: A Comprehensive Benchmark For Physical AI

December 1, 2025
Авторы: Fengzhe Zhou, Jiannan Huang, Jialuo Li, Deva Ramanan, Humphrey Shi
cs.AI

Аннотация

Физический искусственный интеллект (Physical AI) ставит целью разработку моделей, способных воспринимать и предсказывать динамику реального мира; однако степень, в которой современные мультимодальные большие языковые модели и модели генерации видео поддерживают эти способности, изучена недостаточно. Мы представляем Physical AI Bench (PAI-Bench) — унифицированный и комплексный бенчмарк, который оценивает возможности восприятия и прогнозирования в задачах генерации видео, условной генерации видео и понимания видео. Бенчмарк включает 2 808 реальных сценариев с метриками, согласованными с задачами и разработанными для оценки физической правдоподобности и предметно-ориентированных рассуждений. Наше исследование предлагает систематическую оценку современных моделей и показывает, что модели генерации видео, несмотря на высокую визуальную достоверность, часто не способны сохранять физически согласованную динамику, в то время как мультимодальные большие языковые модели демонстрируют ограниченную производительность в прогнозировании и каузальной интерпретации. Эти наблюдения свидетельствуют о том, что современные системы всё ещё находятся на ранней стадии решения перцептивных и прогностических задач Физического ИИ. В итоге, PAI-Bench закладывает реалистичную основу для оценки Физического ИИ и выявляет ключевые пробелы, которые должны быть устранены в будущих системах.
English
Physical AI aims to develop models that can perceive and predict real-world dynamics; yet, the extent to which current multi-modal large language models and video generative models support these abilities is insufficiently understood. We introduce Physical AI Bench (PAI-Bench), a unified and comprehensive benchmark that evaluates perception and prediction capabilities across video generation, conditional video generation, and video understanding, comprising 2,808 real-world cases with task-aligned metrics designed to capture physical plausibility and domain-specific reasoning. Our study provides a systematic assessment of recent models and shows that video generative models, despite strong visual fidelity, often struggle to maintain physically coherent dynamics, while multi-modal large language models exhibit limited performance in forecasting and causal interpretation. These observations suggest that current systems are still at an early stage in handling the perceptual and predictive demands of Physical AI. In summary, PAI-Bench establishes a realistic foundation for evaluating Physical AI and highlights key gaps that future systems must address.
PDF41December 4, 2025