Llevando los VLM a la cancha: Evaluación de la Inteligencia Espacial en el Deporte
Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports
March 10, 2026
Autores: Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong
cs.AI
Resumen
El deporte ha atraído desde hace tiempo una amplia atención por impulsar los límites de las capacidades físicas y cognitivas humanas. En medio del creciente interés por la inteligencia espacial en los modelos de visión y lenguaje (VLM), los deportes ofrecen un campo de pruebas natural para comprender el movimiento humano de alta intensidad y las interacciones dinámicas entre objetos. Con este fin, presentamos CourtSI, el primer conjunto de datos de inteligencia espacial a gran escala adaptado a escenarios deportivos. CourtSI contiene más de 1 millón de pares de preguntas y respuestas, organizados bajo una taxonomía holística que cubre sistemáticamente el conteo espacial, la medición de distancias, la localización y el razonamiento relacional en deportes de red representativos como el bádminton, el tenis y el tenis de mesa. Aprovechando la geometría bien definida de las canchas como anclas métricas, desarrollamos un motor de datos semiautomático para reconstruir escenas deportivas, permitiendo la curación escalable de CourtSI. Además, presentamos CourtSI-Bench, un benchmark de evaluación de alta calidad que comprende 3.686 pares de preguntas y respuestas con verificación humana rigurosa. Evaluamos 25 VLMs propietarios y de código abierto en CourtSI-Bench, revelando una brecha persistente en el rendimiento humano-IA y una generalización limitada desde los benchmarks de inteligencia espacial existentes. Estos hallazgos indican que los escenarios deportivos exponen limitaciones en las capacidades de inteligencia espacial capturadas por los benchmarks actuales. Además, el ajuste fino de Qwen3-VL-8B en CourtSI mejora la precisión en CourtSI-Bench en 23.5 puntos porcentuales. El modelo adaptado también generaliza efectivamente a CourtSI-Ext, un conjunto de evaluación basado en un deporte similar pero no visto, y demuestra una generación de comentarios con mayor conciencia espacial. En conjunto, estos hallazgos demuestran que CourtSI proporciona una vía escalable para avanzar en la inteligencia espacial de los VLMs en el ámbito deportivo.
English
Sports have long attracted broad attention as they push the limits of human physical and cognitive capabilities. Amid growing interest in spatial intelligence for vision-language models (VLMs), sports provide a natural testbed for understanding high-intensity human motion and dynamic object interactions. To this end, we present CourtSI, the first large-scale spatial intelligence dataset tailored to sports scenarios. CourtSI contains over 1M QA pairs, organized under a holistic taxonomy that systematically covers spatial counting, distance measurement, localization, and relational reasoning, across representative net sports including badminton, tennis, and table tennis. Leveraging well-defined court geometry as metric anchors, we develop a semi-automatic data engine to reconstruct sports scenes, enabling scalable curation of CourtSI. In addition, we introduce CourtSI-Bench, a high-quality evaluation benchmark comprising 3,686 QA pairs with rigorous human verification. We evaluate 25 proprietary and open-source VLMs on CourtSI-Bench, revealing a remaining human-AI performance gap and limited generalization from existing spatial intelligence benchmarks. These findings indicate that sports scenarios expose limitations in spatial intelligence capabilities captured by existing benchmarks. Further, fine-tuning Qwen3-VL-8B on CourtSI improves accuracy on CourtSI-Bench by 23.5 percentage points. The adapted model also generalizes effectively to CourtSI-Ext, an evaluation set built on a similar but unseen sport, and demonstrates enhanced spatial-aware commentary generation. Together, these findings demonstrate that CourtSI provides a scalable pathway toward advancing spatial intelligence of VLMs in sports.