ChatPaper.aiChatPaper

PAI-Bench: Un Benchmark Integral para la Inteligencia Artificial Física

PAI-Bench: A Comprehensive Benchmark For Physical AI

December 1, 2025
Autores: Fengzhe Zhou, Jiannan Huang, Jialuo Li, Deva Ramanan, Humphrey Shi
cs.AI

Resumen

La Inteligencia Artificial Física (Physical AI) tiene como objetivo desarrollar modelos que puedan percibir y predecir dinámicas del mundo real; sin embargo, se comprende insuficientemente hasta qué punto los actuales modelos de lenguaje grandes multimodales y los modelos generativos de video respaldan estas capacidades. Presentamos Physical AI Bench (PAI-Bench), un benchmark unificado e integral que evalúa las capacidades de percepción y predicción en generación de video, generación condicional de video y comprensión de video, comprendiendo 2.808 casos del mundo real con métricas alineadas a tareas diseñadas para capturar la plausibilidad física y el razonamiento específico del dominio. Nuestro estudio proporciona una evaluación sistemática de modelos recientes y muestra que los modelos generativos de video, a pesar de su alta fidelidad visual, a menudo tienen dificultades para mantener dinámicas físicamente coherentes, mientras que los modelos de lenguaje grandes multimodales exhiben un rendimiento limitado en pronóstico e interpretación causal. Estas observaciones sugieren que los sistemas actuales aún se encuentran en una etapa temprana para manejar las demandas perceptivas y predictivas de la Inteligencia Artificial Física. En resumen, PAI-Bench establece una base realista para evaluar la Inteligencia Artificial Física y resalta brechas clave que los sistemas futuros deben abordar.
English
Physical AI aims to develop models that can perceive and predict real-world dynamics; yet, the extent to which current multi-modal large language models and video generative models support these abilities is insufficiently understood. We introduce Physical AI Bench (PAI-Bench), a unified and comprehensive benchmark that evaluates perception and prediction capabilities across video generation, conditional video generation, and video understanding, comprising 2,808 real-world cases with task-aligned metrics designed to capture physical plausibility and domain-specific reasoning. Our study provides a systematic assessment of recent models and shows that video generative models, despite strong visual fidelity, often struggle to maintain physically coherent dynamics, while multi-modal large language models exhibit limited performance in forecasting and causal interpretation. These observations suggest that current systems are still at an early stage in handling the perceptual and predictive demands of Physical AI. In summary, PAI-Bench establishes a realistic foundation for evaluating Physical AI and highlights key gaps that future systems must address.
PDF41December 4, 2025