Faire entrer les VLMs sur le terrain : Évaluer l'intelligence spatiale dans le domaine sportif
Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports
March 10, 2026
Auteurs: Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong
cs.AI
Résumé
Le sport a longtemps suscité un intérêt général car il repousse les limites des capacités physiques et cognitives humaines. Alors que l'intérêt pour l'intelligence spatiale des modèles vision-langage (VLM) grandit, le sport constitue un terrain d'évaluation naturel pour comprendre les mouvements humains de haute intensité et les interactions dynamiques d'objets. Dans cette optique, nous présentons CourtSI, la première base de données à grande échelle dédiée à l'intelligence spatiale dans des scénarios sportifs. CourtSI contient plus d'un million de paires question-réponse, organisées selon une taxonomie holistique couvrant systématiquement le dénombrement spatial, la mesure des distances, la localisation et le raisonnement relationnel, à travers des sports de filet représentatifs incluant le badminton, le tennis et le tennis de table. En tirant parti de la géométrie bien définie des terrains comme ancres métriques, nous avons développé un moteur de données semi-automatique pour reconstruire les scènes sportives, permettant une curation scalable de CourtSI. Par ailleurs, nous introduisons CourtSI-Bench, un benchmark d'évaluation de haute qualité comprenant 3 686 paires question-réponse vérifiées rigoureusement par des humains. Nous avons évalué 25 VLM propriétaires et open-source sur CourtSI-Bench, révélant un écart persistant entre les performances humaines et l'IA, ainsi qu'une généralisation limitée depuis les benchmarks existants en intelligence spatiale. Ces résultats indiquent que les scénarios sportifs mettent en lumière les limitations des capacités d'intelligence spatiale capturées par les benchmarks actuels. De plus, le fine-tuning de Qwen3-VL-8B sur CourtSI améliore la précision sur CourtSI-Bench de 23,5 points de pourcentage. Le modèle adapté généralise aussi efficacement à CourtSI-Ext, un ensemble d'évaluation basé sur un sport similaire mais non vu lors de l'entraînement, et démontre une génération de commentaires spatialement conscients améliorée. Ensemble, ces résultats montrent que CourtSI offre une voie scalable pour faire progresser l'intelligence spatiale des VLM dans le domaine sportif.
English
Sports have long attracted broad attention as they push the limits of human physical and cognitive capabilities. Amid growing interest in spatial intelligence for vision-language models (VLMs), sports provide a natural testbed for understanding high-intensity human motion and dynamic object interactions. To this end, we present CourtSI, the first large-scale spatial intelligence dataset tailored to sports scenarios. CourtSI contains over 1M QA pairs, organized under a holistic taxonomy that systematically covers spatial counting, distance measurement, localization, and relational reasoning, across representative net sports including badminton, tennis, and table tennis. Leveraging well-defined court geometry as metric anchors, we develop a semi-automatic data engine to reconstruct sports scenes, enabling scalable curation of CourtSI. In addition, we introduce CourtSI-Bench, a high-quality evaluation benchmark comprising 3,686 QA pairs with rigorous human verification. We evaluate 25 proprietary and open-source VLMs on CourtSI-Bench, revealing a remaining human-AI performance gap and limited generalization from existing spatial intelligence benchmarks. These findings indicate that sports scenarios expose limitations in spatial intelligence capabilities captured by existing benchmarks. Further, fine-tuning Qwen3-VL-8B on CourtSI improves accuracy on CourtSI-Bench by 23.5 percentage points. The adapted model also generalizes effectively to CourtSI-Ext, an evaluation set built on a similar but unseen sport, and demonstrates enhanced spatial-aware commentary generation. Together, these findings demonstrate that CourtSI provides a scalable pathway toward advancing spatial intelligence of VLMs in sports.