Portare i VLM in Campo: Valutazione dell'Intelligenza Spaziale negli Sport

Abstract

Lo sport ha da tempo attirato ampia attenzione poiché spinge ai limiti le capacità fisiche e cognitive umane. Nel crescente interesse per l'intelligenza spaziale nei modelli visione-linguaggio (VLM), lo sport fornisce un banco di prova naturale per comprendere il movimento umano ad alta intensità e le interazioni dinamiche tra oggetti. A tal fine, presentiamo CourtSI, il primo dataset su larga scala di intelligenza spaziale specifico per scenari sportivi. CourtSI contiene oltre 1 milione di coppie domanda-risposta, organizzate secondo una tassonomia olistica che copre sistematicamente il conteggio spaziale, la misurazione delle distanze, la localizzazione e il ragionamento relazionale, attraverso sport di rete rappresentativi come badminton, tennis e tennis da tavolo. Sfruttando la geometria ben definita del campo come ancoraggio metrico, abbiamo sviluppato un motore di dati semi-automatico per ricostruire scene sportive, consentendo la creazione scalabile di CourtSI. Inoltre, introduciamo CourtSI-Bench, un benchmark di valutazione di alta qualità composto da 3.686 coppie domanda-risposta con verifica umana rigorosa. Abbiamo valutato 25 VLM proprietari e open-source su CourtSI-Bench, rivelando un persistente divario prestazionale uomo-IA e una limitata generalizzazione dai benchmark esistenti di intelligenza spaziale. Questi risultati indicano che gli scenari sportivi mettono in luce limitazioni nelle capacità di intelligenza spaziale catturate dai benchmark attuali. Inoltre, il fine-tuning di Qwen3-VL-8B su CourtSI migliora l'accuratezza su CourtSI-Bench di 23,5 punti percentuali. Il modello adattato generalizza efficacemente anche su CourtSI-Ext, un set di valutazione basato su uno sport simile ma non visto, e dimostra una generazione di commenti potenziata a livello spaziale. Nel complesso, questi risultati dimostrano che CourtSI fornisce un percorso scalabile per far avanzare l'intelligenza spaziale dei VLM nello sport.

English

Sports have long attracted broad attention as they push the limits of human physical and cognitive capabilities. Amid growing interest in spatial intelligence for vision-language models (VLMs), sports provide a natural testbed for understanding high-intensity human motion and dynamic object interactions. To this end, we present CourtSI, the first large-scale spatial intelligence dataset tailored to sports scenarios. CourtSI contains over 1M QA pairs, organized under a holistic taxonomy that systematically covers spatial counting, distance measurement, localization, and relational reasoning, across representative net sports including badminton, tennis, and table tennis. Leveraging well-defined court geometry as metric anchors, we develop a semi-automatic data engine to reconstruct sports scenes, enabling scalable curation of CourtSI. In addition, we introduce CourtSI-Bench, a high-quality evaluation benchmark comprising 3,686 QA pairs with rigorous human verification. We evaluate 25 proprietary and open-source VLMs on CourtSI-Bench, revealing a remaining human-AI performance gap and limited generalization from existing spatial intelligence benchmarks. These findings indicate that sports scenarios expose limitations in spatial intelligence capabilities captured by existing benchmarks. Further, fine-tuning Qwen3-VL-8B on CourtSI improves accuracy on CourtSI-Bench by 23.5 percentage points. The adapted model also generalizes effectively to CourtSI-Ext, an evaluation set built on a similar but unseen sport, and demonstrates enhanced spatial-aware commentary generation. Together, these findings demonstrate that CourtSI provides a scalable pathway toward advancing spatial intelligence of VLMs in sports.

Portare i VLM in Campo: Valutazione dell'Intelligenza Spaziale negli Sport

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Abstract

Support