Colocando os VLMs na Quadra: Avaliando a Inteligência Espacial nos Esportes

Resumo

Os esportes há muito atraem ampla atenção por expandirem os limites das capacidades físicas e cognitivas humanas. Diante do crescente interesse na inteligência espacial para modelos visão-linguagem (VLMs), os esportes oferecem um ambiente natural para compreender movimentos humanos de alta intensidade e interações dinâmicas entre objetos. Para isso, apresentamos o CourtSI, o primeiro conjunto de dados de inteligência espacial em larga escala adaptado para cenários esportivos. O CourtSI contém mais de 1 milhão de pares de perguntas e respostas, organizados sob uma taxonomia holística que abrange sistematicamente contagem espacial, medição de distância, localização e raciocínio relacional em esportes de rede representativos, como badminton, tênis e tênis de mesa. Aproveitando a geometria bem definida das quadras como âncoras métricas, desenvolvemos um mecanismo de dados semiautomático para reconstruir cenas esportivas, permitindo a curadoria escalável do CourtSI. Além disso, introduzimos o CourtSI-Bench, um benchmark de avaliação de alta qualidade composto por 3.686 pares de perguntas e respostas com verificação humana rigorosa. Avaliamos 25 VLMs proprietários e de código aberto no CourtSI-Bench, revelando uma lacuna remanescente no desempenho humano-IA e generalização limitada em relação aos benchmarks existentes de inteligência espacial. Essas descobertas indicam que cenários esportivos expõem limitações nas capacidades de inteligência espacial capturadas pelos benchmarks atuais. Ademais, o ajuste fino do Qwen3-VL-8B no CourtSI melhorou sua precisão no CourtSI-Bench em 23,5 pontos percentuais. O modelo adaptado também generaliza efetivamente para o CourtSI-Ext, um conjunto de avaliação baseado em um esporte similar não visto durante o treinamento, e demonstra geração aprimorada de comentários com consciência espacial. Coletivamente, esses resultados demonstram que o CourtSI oferece um caminho escalável para avançar a inteligência espacial de VLMs em esportes.

English

Sports have long attracted broad attention as they push the limits of human physical and cognitive capabilities. Amid growing interest in spatial intelligence for vision-language models (VLMs), sports provide a natural testbed for understanding high-intensity human motion and dynamic object interactions. To this end, we present CourtSI, the first large-scale spatial intelligence dataset tailored to sports scenarios. CourtSI contains over 1M QA pairs, organized under a holistic taxonomy that systematically covers spatial counting, distance measurement, localization, and relational reasoning, across representative net sports including badminton, tennis, and table tennis. Leveraging well-defined court geometry as metric anchors, we develop a semi-automatic data engine to reconstruct sports scenes, enabling scalable curation of CourtSI. In addition, we introduce CourtSI-Bench, a high-quality evaluation benchmark comprising 3,686 QA pairs with rigorous human verification. We evaluate 25 proprietary and open-source VLMs on CourtSI-Bench, revealing a remaining human-AI performance gap and limited generalization from existing spatial intelligence benchmarks. These findings indicate that sports scenarios expose limitations in spatial intelligence capabilities captured by existing benchmarks. Further, fine-tuning Qwen3-VL-8B on CourtSI improves accuracy on CourtSI-Bench by 23.5 percentage points. The adapted model also generalizes effectively to CourtSI-Ext, an evaluation set built on a similar but unseen sport, and demonstrates enhanced spatial-aware commentary generation. Together, these findings demonstrate that CourtSI provides a scalable pathway toward advancing spatial intelligence of VLMs in sports.