Шагая на корт: оценка пространственного интеллекта визуальных языковых моделей в спорте

Аннотация

Спорт издавна привлекает широкое внимание, поскольку он расширяет пределы физических и когнитивных возможностей человека. На фоне растущего интереса к пространственному интеллекту моделей "визуальный язык" (Vision-Language Models, VLM) спорт предоставляет естественный полигон для изучения высокоинтенсивных движений человека и динамических взаимодействий объектов. С этой целью мы представляем CourtSI — первый крупномасштабный набор данных для оценки пространственного интеллекта, созданный специально для спортивных сценариев. CourtSI содержит более 1 миллиона пар "вопрос-ответ", систематизированных по целостной таксономии, которая охватывает пространственный подсчет, измерение расстояний, локализацию и реляционные рассуждения в контексте представительных сеточных видов спорта: бадминтона, тенниса и настольного тенниса. Используя четко определенную геометрию корта в качестве метрических ориентиров, мы разработали полуавтоматический механизм генерации данных для реконструкции спортивных сцен, что позволило масштабируемо создавать CourtSI. Кроме того, мы представляем CourtSI-Bench — высококачественный оценочный бенчмарк, состоящий из 3 686 пар "вопрос-ответ", прошедших тщательную проверку человеком. Мы оценили 25 проприетарных и открытых VLM на CourtSI-Bench, что выявило сохраняющийся разрыв между человеком и ИИ в производительности, а также ограниченную обобщающую способность с существующих бенчмарков пространственного интеллекта. Эти результаты указывают, что спортивные сценарии выявляют ограничения в возможностях пространственного интеллекта, которые не улавливаются существующими бенчмарками. Более того, дообучение модели Qwen3-VL-8B на данных CourtSI повысило точность на CourtSI-Bench на 23,5 процентных пункта. Адаптированная модель также эффективно обобщает знания на CourtSI-Ext — оценочный набор, созданный на основе схожего, но незнакомого вида спорта, — и демонстрирует улучшенную генерацию комментариев с учетом пространственного контекста. В совокупности эти результаты демонстрируют, что CourtSI предоставляет масштабируемый путь для развития пространственного интеллекта VLM в спортивной сфере.

English

Sports have long attracted broad attention as they push the limits of human physical and cognitive capabilities. Amid growing interest in spatial intelligence for vision-language models (VLMs), sports provide a natural testbed for understanding high-intensity human motion and dynamic object interactions. To this end, we present CourtSI, the first large-scale spatial intelligence dataset tailored to sports scenarios. CourtSI contains over 1M QA pairs, organized under a holistic taxonomy that systematically covers spatial counting, distance measurement, localization, and relational reasoning, across representative net sports including badminton, tennis, and table tennis. Leveraging well-defined court geometry as metric anchors, we develop a semi-automatic data engine to reconstruct sports scenes, enabling scalable curation of CourtSI. In addition, we introduce CourtSI-Bench, a high-quality evaluation benchmark comprising 3,686 QA pairs with rigorous human verification. We evaluate 25 proprietary and open-source VLMs on CourtSI-Bench, revealing a remaining human-AI performance gap and limited generalization from existing spatial intelligence benchmarks. These findings indicate that sports scenarios expose limitations in spatial intelligence capabilities captured by existing benchmarks. Further, fine-tuning Qwen3-VL-8B on CourtSI improves accuracy on CourtSI-Bench by 23.5 percentage points. The adapted model also generalizes effectively to CourtSI-Ext, an evaluation set built on a similar but unseen sport, and demonstrates enhanced spatial-aware commentary generation. Together, these findings demonstrate that CourtSI provides a scalable pathway toward advancing spatial intelligence of VLMs in sports.

Шагая на корт: оценка пространственного интеллекта визуальных языковых моделей в спорте

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Аннотация

Support