VLMs de Baan Op: Een Benchmark voor Ruimtelijk Inzicht in Sport

Samenvatting

Sport heeft altijd brede aandacht getrokken omdat het de grenzen van menselijke fysieke en cognitieve vermogens verlegt. Tegen de achtergrond van groeiende interesse in ruimtelijke intelligentie voor vision-language modellen (VLMs) bieden sporten een natuurlijke testomgeving voor het begrijpen van hoogintensieve menselijke beweging en dynamische objectinteracties. Daarom presenteren wij CourtSI, de eerste grootschalige dataset voor ruimtelijke intelligentie die specifiek is toegesneden op sportsituaties. CourtSI bevat meer dan 1 miljoen vraag-antwoordparen, georganiseerd volgens een holistische taxonomie die systematisch ruimtelijk tellen, afstandsmeting, lokalisatie en relationeel redeneren dekt, voor representatieve netsporten zoals badminton, tennis en tafeltennis. Door gebruik te maken van goed gedefinieerde baanmeetkunde als metrieke ankers, ontwikkelden we een semi-automatische data-engine om sportsituaties te reconstrueren, wat een schaalbare samenstelling van CourtSI mogelijk maakt. Daarnaast introduceren we CourtSI-Bench, een hoogwaardige evaluatiestandaard bestaande uit 3.686 vraag-antwoordparen met rigoureuze menselijke verificatie. We evalueren 25 propriëtaire en open-source VLMs op CourtSI-Bench, wat een aanhoudende prestatiekloof tussen mens en AI en beperkte generalisatie vanuit bestaande benchmarks voor ruimtelijke intelligentie aan het licht brengt. Deze bevindingen geven aan dat sportsituaties beperkingen blootleggen in ruimtelijke intelligentiecapaciteiten die door bestaande benchmarks worden gemeten. Bovendien verbetert fine-tuning van Qwen3-VL-8B op CourtSI de nauwkeurigheid op CourtSI-Bench met 23,5 procentpunten. Het aangepaste model generaliseert ook effectief naar CourtSI-Ext, een evaluatieset gebaseerd op een vergelijkbare maar onbekende sport, en toont verbeterde generatie van ruimtelijk bewuste commentaar. Samen tonen deze bevindingen aan dat CourtSI een schaalbare weg biedt om de ruimtelijke intelligentie van VLMs in sport te bevorderen.

English

Sports have long attracted broad attention as they push the limits of human physical and cognitive capabilities. Amid growing interest in spatial intelligence for vision-language models (VLMs), sports provide a natural testbed for understanding high-intensity human motion and dynamic object interactions. To this end, we present CourtSI, the first large-scale spatial intelligence dataset tailored to sports scenarios. CourtSI contains over 1M QA pairs, organized under a holistic taxonomy that systematically covers spatial counting, distance measurement, localization, and relational reasoning, across representative net sports including badminton, tennis, and table tennis. Leveraging well-defined court geometry as metric anchors, we develop a semi-automatic data engine to reconstruct sports scenes, enabling scalable curation of CourtSI. In addition, we introduce CourtSI-Bench, a high-quality evaluation benchmark comprising 3,686 QA pairs with rigorous human verification. We evaluate 25 proprietary and open-source VLMs on CourtSI-Bench, revealing a remaining human-AI performance gap and limited generalization from existing spatial intelligence benchmarks. These findings indicate that sports scenarios expose limitations in spatial intelligence capabilities captured by existing benchmarks. Further, fine-tuning Qwen3-VL-8B on CourtSI improves accuracy on CourtSI-Bench by 23.5 percentage points. The adapted model also generalizes effectively to CourtSI-Ext, an evaluation set built on a similar but unseen sport, and demonstrates enhanced spatial-aware commentary generation. Together, these findings demonstrate that CourtSI provides a scalable pathway toward advancing spatial intelligence of VLMs in sports.

VLMs de Baan Op: Een Benchmark voor Ruimtelijk Inzicht in Sport

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Samenvatting

Support