ChatPaper.aiChatPaper

Rumo à Compreensão Universal de Vídeos de Futebol

Towards Universal Soccer Video Understanding

December 2, 2024
Autores: Jiayuan Rao, Haoning Wu, Hao Jiang, Ya Zhang, Yanfeng Wang, Weidi Xie
cs.AI

Resumo

Como um esporte globalmente celebrado, o futebol tem atraído amplo interesse de fãs ao redor do mundo. Este artigo tem como objetivo desenvolver um framework abrangente multimodal para compreensão de vídeos de futebol. Especificamente, fazemos as seguintes contribuições neste artigo: (i) introduzimos o SoccerReplay-1988, o maior conjunto de dados multimodal de futebol até o momento, apresentando vídeos e anotações detalhadas de 1.988 partidas completas, com um pipeline de anotação automatizado; (ii) apresentamos o primeiro modelo de base visual-linguagem no domínio do futebol, o MatchVision, que aproveita informações espaço-temporais em vídeos de futebol e se destaca em várias tarefas subsequentes; (iii) realizamos experimentos extensivos e estudos de ablação na classificação de eventos, geração de comentários e reconhecimento de faltas de múltiplas visões. O MatchVision demonstra desempenho de ponta em todos eles, superando substancialmente os modelos existentes, o que destaca a superioridade de nossos dados e modelo propostos. Acreditamos que este trabalho oferecerá um paradigma padrão para a pesquisa em compreensão de esportes.
English
As a globally celebrated sport, soccer has attracted widespread interest from fans all over the world. This paper aims to develop a comprehensive multi-modal framework for soccer video understanding. Specifically, we make the following contributions in this paper: (i) we introduce SoccerReplay-1988, the largest multi-modal soccer dataset to date, featuring videos and detailed annotations from 1,988 complete matches, with an automated annotation pipeline; (ii) we present the first visual-language foundation model in the soccer domain, MatchVision, which leverages spatiotemporal information across soccer videos and excels in various downstream tasks; (iii) we conduct extensive experiments and ablation studies on event classification, commentary generation, and multi-view foul recognition. MatchVision demonstrates state-of-the-art performance on all of them, substantially outperforming existing models, which highlights the superiority of our proposed data and model. We believe that this work will offer a standard paradigm for sports understanding research.

Summary

AI-Generated Summary

PDF122December 6, 2024