ChatPaper.aiChatPaper

Auf dem Weg zu einem universellen Verständnis von Fußballvideos

Towards Universal Soccer Video Understanding

December 2, 2024
Autoren: Jiayuan Rao, Haoning Wu, Hao Jiang, Ya Zhang, Yanfeng Wang, Weidi Xie
cs.AI

Zusammenfassung

Als weltweit gefeierter Sport hat Fußball ein breites Interesse von Fans auf der ganzen Welt geweckt. Dieser Artikel zielt darauf ab, einen umfassenden multimodalen Rahmen für das Verständnis von Fußballvideos zu entwickeln. Konkret leisten wir in diesem Artikel folgende Beiträge: (i) Wir stellen SoccerReplay-1988 vor, den größten multimodalen Fußballdatensatz bis heute, der Videos und detaillierte Annotationen von 1.988 vollständigen Spielen enthält, mit einer automatisierten Annotationspipeline; (ii) Wir präsentieren das erste visuell-sprachliche Grundlagenmodell im Fußballbereich, MatchVision, das raumzeitliche Informationen über Fußballvideos nutzt und in verschiedenen nachgelagerten Aufgaben hervorragende Leistungen erbringt; (iii) Wir führen umfangreiche Experimente und Ablationsstudien zur Ereignisklassifizierung, Kommentarerstellung und Mehrsicht-Foul-Erkennung durch. MatchVision zeigt Spitzenleistungen in all diesen Bereichen und übertrifft bestehende Modelle deutlich, was die Überlegenheit unserer vorgeschlagenen Daten und Modelle unterstreicht. Wir sind der Überzeugung, dass diese Arbeit einen Standardparadigma für die Forschung im Bereich des Sportverständnisses bieten wird.
English
As a globally celebrated sport, soccer has attracted widespread interest from fans all over the world. This paper aims to develop a comprehensive multi-modal framework for soccer video understanding. Specifically, we make the following contributions in this paper: (i) we introduce SoccerReplay-1988, the largest multi-modal soccer dataset to date, featuring videos and detailed annotations from 1,988 complete matches, with an automated annotation pipeline; (ii) we present the first visual-language foundation model in the soccer domain, MatchVision, which leverages spatiotemporal information across soccer videos and excels in various downstream tasks; (iii) we conduct extensive experiments and ablation studies on event classification, commentary generation, and multi-view foul recognition. MatchVision demonstrates state-of-the-art performance on all of them, substantially outperforming existing models, which highlights the superiority of our proposed data and model. We believe that this work will offer a standard paradigm for sports understanding research.

Summary

AI-Generated Summary

PDF122December 6, 2024