Шагая на корт: оценка пространственного интеллекта визуальных языковых моделей в спорте
Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports
March 10, 2026
Авторы: Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong
cs.AI
Аннотация
Спорт издавна привлекает широкое внимание, поскольку он расширяет пределы физических и когнитивных возможностей человека. На фоне растущего интереса к пространственному интеллекту моделей "визуальный язык" (Vision-Language Models, VLM) спорт предоставляет естественный полигон для изучения высокоинтенсивных движений человека и динамических взаимодействий объектов. С этой целью мы представляем CourtSI — первый крупномасштабный набор данных для оценки пространственного интеллекта, созданный специально для спортивных сценариев. CourtSI содержит более 1 миллиона пар "вопрос-ответ", систематизированных по целостной таксономии, которая охватывает пространственный подсчет, измерение расстояний, локализацию и реляционные рассуждения в контексте представительных сеточных видов спорта: бадминтона, тенниса и настольного тенниса. Используя четко определенную геометрию корта в качестве метрических ориентиров, мы разработали полуавтоматический механизм генерации данных для реконструкции спортивных сцен, что позволило масштабируемо создавать CourtSI. Кроме того, мы представляем CourtSI-Bench — высококачественный оценочный бенчмарк, состоящий из 3 686 пар "вопрос-ответ", прошедших тщательную проверку человеком. Мы оценили 25 проприетарных и открытых VLM на CourtSI-Bench, что выявило сохраняющийся разрыв между человеком и ИИ в производительности, а также ограниченную обобщающую способность с существующих бенчмарков пространственного интеллекта. Эти результаты указывают, что спортивные сценарии выявляют ограничения в возможностях пространственного интеллекта, которые не улавливаются существующими бенчмарками. Более того, дообучение модели Qwen3-VL-8B на данных CourtSI повысило точность на CourtSI-Bench на 23,5 процентных пункта. Адаптированная модель также эффективно обобщает знания на CourtSI-Ext — оценочный набор, созданный на основе схожего, но незнакомого вида спорта, — и демонстрирует улучшенную генерацию комментариев с учетом пространственного контекста. В совокупности эти результаты демонстрируют, что CourtSI предоставляет масштабируемый путь для развития пространственного интеллекта VLM в спортивной сфере.
English
Sports have long attracted broad attention as they push the limits of human physical and cognitive capabilities. Amid growing interest in spatial intelligence for vision-language models (VLMs), sports provide a natural testbed for understanding high-intensity human motion and dynamic object interactions. To this end, we present CourtSI, the first large-scale spatial intelligence dataset tailored to sports scenarios. CourtSI contains over 1M QA pairs, organized under a holistic taxonomy that systematically covers spatial counting, distance measurement, localization, and relational reasoning, across representative net sports including badminton, tennis, and table tennis. Leveraging well-defined court geometry as metric anchors, we develop a semi-automatic data engine to reconstruct sports scenes, enabling scalable curation of CourtSI. In addition, we introduce CourtSI-Bench, a high-quality evaluation benchmark comprising 3,686 QA pairs with rigorous human verification. We evaluate 25 proprietary and open-source VLMs on CourtSI-Bench, revealing a remaining human-AI performance gap and limited generalization from existing spatial intelligence benchmarks. These findings indicate that sports scenarios expose limitations in spatial intelligence capabilities captured by existing benchmarks. Further, fine-tuning Qwen3-VL-8B on CourtSI improves accuracy on CourtSI-Bench by 23.5 percentage points. The adapted model also generalizes effectively to CourtSI-Ext, an evaluation set built on a similar but unseen sport, and demonstrates enhanced spatial-aware commentary generation. Together, these findings demonstrate that CourtSI provides a scalable pathway toward advancing spatial intelligence of VLMs in sports.