ChatPaper.aiChatPaper

Naar Universeel Begrip van Voetbalvideo's

Towards Universal Soccer Video Understanding

December 2, 2024
Auteurs: Jiayuan Rao, Haoning Wu, Hao Jiang, Ya Zhang, Yanfeng Wang, Weidi Xie
cs.AI

Samenvatting

Als een wereldwijd gevierde sport heeft voetbal een brede interesse aangetrokken van fans over de hele wereld. Dit artikel heeft als doel een uitgebreid multimodaal kader te ontwikkelen voor het begrijpen van voetbalvideo's. Specifiek leveren we de volgende bijdragen in dit artikel: (i) we introduceren SoccerReplay-1988, de grootste multimodale voetbaldataset tot nu toe, met video's en gedetailleerde annotaties van 1.988 complete wedstrijden, met een geautomatiseerd annotatieproces; (ii) we presenteren het eerste visueel-talige basismodel in het voetbaldomein, MatchVision, dat gebruikmaakt van ruimtelijk-temporele informatie in voetbalvideo's en uitblinkt in verschillende downstream taken; (iii) we voeren uitgebreide experimenten en ablatiestudies uit over gebeurtenisklassificatie, commentaargeneratie en herkenning van overtredingen vanuit meerdere gezichtspunten. MatchVision toont state-of-the-art prestaties op al deze gebieden, waarbij bestaande modellen aanzienlijk overtroffen worden, wat de superioriteit van onze voorgestelde gegevens en model benadrukt. We zijn van mening dat dit werk een standaard paradigma zal bieden voor onderzoek naar sportbegrip.
English
As a globally celebrated sport, soccer has attracted widespread interest from fans all over the world. This paper aims to develop a comprehensive multi-modal framework for soccer video understanding. Specifically, we make the following contributions in this paper: (i) we introduce SoccerReplay-1988, the largest multi-modal soccer dataset to date, featuring videos and detailed annotations from 1,988 complete matches, with an automated annotation pipeline; (ii) we present the first visual-language foundation model in the soccer domain, MatchVision, which leverages spatiotemporal information across soccer videos and excels in various downstream tasks; (iii) we conduct extensive experiments and ablation studies on event classification, commentary generation, and multi-view foul recognition. MatchVision demonstrates state-of-the-art performance on all of them, substantially outperforming existing models, which highlights the superiority of our proposed data and model. We believe that this work will offer a standard paradigm for sports understanding research.
PDF122December 6, 2024