ChatPaper.aiChatPaper

¿Ha logrado GPT-5 la inteligencia espacial? Un estudio empírico

Has GPT-5 Achieved Spatial Intelligence? An Empirical Study

August 18, 2025
Autores: Zhongang Cai, Yubo Wang, Qingping Sun, Ruisi Wang, Chenyang Gu, Wanqi Yin, Zhiqian Lin, Zhitao Yang, Chen Wei, Xuanke Shi, Kewang Deng, Xiaoyang Han, Zukai Chen, Jiaqi Li, Xiangyu Fan, Hanming Deng, Lewei Lu, Bo Li, Ziwei Liu, Quan Wang, Dahua Lin, Lei Yang
cs.AI

Resumen

Los modelos multimodales han logrado avances notables en los últimos años. Sin embargo, siguen presentando limitaciones significativas en la comprensión y el razonamiento espacial, capacidades fundamentales para alcanzar la inteligencia artificial general. Con el reciente lanzamiento de GPT-5, supuestamente el modelo de IA más potente hasta la fecha, es oportuno examinar dónde se encuentran los modelos líderes en el camino hacia la inteligencia espacial. Primero, proponemos una taxonomía exhaustiva de tareas espaciales que unifica los puntos de referencia existentes y discutimos los desafíos para garantizar una evaluación justa. Luego, evaluamos modelos propietarios y de código abierto de última generación en ocho puntos de referencia clave, con un costo que supera los mil millones de tokens en total. Nuestro estudio empírico revela que (1) GPT-5 demuestra una fuerza sin precedentes en inteligencia espacial, pero (2) aún no alcanza el rendimiento humano en una amplia gama de tareas. Además, (3) identificamos los problemas de inteligencia espacial más desafiantes para los modelos multimodales, y (4) los modelos propietarios no muestran una ventaja decisiva al enfrentar los problemas más difíciles. Asimismo, realizamos una evaluación cualitativa en un conjunto diverso de escenarios que son intuitivos para los humanos, pero que incluso los modelos multimodales más avanzados no logran resolver.
English
Multi-modal models have achieved remarkable progress in recent years. Nevertheless, they continue to exhibit notable limitations in spatial understanding and reasoning, which are fundamental capabilities to achieving artificial general intelligence. With the recent release of GPT-5, allegedly the most powerful AI model to date, it is timely to examine where the leading models stand on the path toward spatial intelligence. First, we propose a comprehensive taxonomy of spatial tasks that unifies existing benchmarks and discuss the challenges in ensuring fair evaluation. We then evaluate state-of-the-art proprietary and open-source models on eight key benchmarks, at a cost exceeding one billion total tokens. Our empirical study reveals that (1) GPT-5 demonstrates unprecedented strength in spatial intelligence, yet (2) still falls short of human performance across a broad spectrum of tasks. Moreover, we (3) identify the more challenging spatial intelligence problems for multi-modal models, and (4) proprietary models do not exhibit a decisive advantage when facing the most difficult problems. In addition, we conduct a qualitative evaluation across a diverse set of scenarios that are intuitive for humans yet fail even the most advanced multi-modal models.
PDF232August 19, 2025