VLMs auf den Platz gestellt: Benchmarking räumlicher Intelligenz im Sport

Zusammenfassung

Sportarten haben seit langem große Aufmerksamkeit auf sich gezogen, da sie die Grenzen menschlicher physischer und kognitiver Fähigkeiten erweitern. Vor dem Hintergrund des wachsenden Interesses an räumlicher Intelligenz für Vision-Language-Modelle (VLMs) bieten Sportarten ein natürliches Testfeld zum Verständnis von hochintensiven menschlichen Bewegungen und dynamischen Objektinteraktionen. Zu diesem Zweck stellen wir CourtSI vor, den ersten groß angelegten räumlichen Intelligenz-Datensatz, der speziell auf Sportszenarien zugeschnitten ist. CourtSI enthält über 1 Millionen Frage-Antwort-Paare, die nach einer ganzheitlichen Taxonomie organisiert sind, die systematisch räumliches Zählen, Entfernungsmessung, Lokalisierung und relationales Reasoning in repräsentativen Rückschlagspielen wie Badminton, Tennis und Tischtennis abdeckt. Unter Nutzung der klar definierten Spielfeldgeometrie als metrische Referenzpunkte entwickelten wir eine halbautomatische Daten-Engine zur Rekonstruktion von Sportszenen, die eine skalierbare Erstellung von CourtSI ermöglicht. Zusätzlich führen wir CourtSI-Bench ein, einen hochwertigen Evaluierungsbenchmark mit 3.686 Frage-Antwort-Paaren, die einer strengen menschlichen Überprüfung unterzogen wurden. Wir evaluieren 25 proprietäre und Open-Source-VLMs auf CourtSI-Bench, was eine bestehende Leistungslücke zwischen Mensch und KI sowie eine begrenzte Generalisierung von bestehenden räumlichen Intelligenz-Benchmarks aufzeigt. Diese Ergebnisse deuten darauf hin, dass Sportszenarien Limitierungen der räumlichen Intelligenzfähigkeiten offenbaren, die von bestehenden Benchmarks nicht erfasst werden. Darüber hinaus verbessert ein Fine-Tuning von Qwen3-VL-8B auf CourtSI die Genauigkeit auf CourtSI-Bench um 23,5 Prozentpunkte. Das angepasste Modell generalisiert auch effektiv auf CourtSI-Ext, einem Evaluierungsset, das auf einer ähnlichen, aber unbekannten Sportart basiert, und zeigt eine verbesserte generation räumlich bewusster Kommentare. Zusammengenommen demonstrieren diese Ergebnisse, dass CourtSI einen skalierbaren Weg zur Weiterentwicklung der räumlichen Intelligenz von VLMs im Sportbereich bietet.

English

Sports have long attracted broad attention as they push the limits of human physical and cognitive capabilities. Amid growing interest in spatial intelligence for vision-language models (VLMs), sports provide a natural testbed for understanding high-intensity human motion and dynamic object interactions. To this end, we present CourtSI, the first large-scale spatial intelligence dataset tailored to sports scenarios. CourtSI contains over 1M QA pairs, organized under a holistic taxonomy that systematically covers spatial counting, distance measurement, localization, and relational reasoning, across representative net sports including badminton, tennis, and table tennis. Leveraging well-defined court geometry as metric anchors, we develop a semi-automatic data engine to reconstruct sports scenes, enabling scalable curation of CourtSI. In addition, we introduce CourtSI-Bench, a high-quality evaluation benchmark comprising 3,686 QA pairs with rigorous human verification. We evaluate 25 proprietary and open-source VLMs on CourtSI-Bench, revealing a remaining human-AI performance gap and limited generalization from existing spatial intelligence benchmarks. These findings indicate that sports scenarios expose limitations in spatial intelligence capabilities captured by existing benchmarks. Further, fine-tuning Qwen3-VL-8B on CourtSI improves accuracy on CourtSI-Bench by 23.5 percentage points. The adapted model also generalizes effectively to CourtSI-Ext, an evaluation set built on a similar but unseen sport, and demonstrates enhanced spatial-aware commentary generation. Together, these findings demonstrate that CourtSI provides a scalable pathway toward advancing spatial intelligence of VLMs in sports.

VLMs auf den Platz gestellt: Benchmarking räumlicher Intelligenz im Sport

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Zusammenfassung

Support