ChatPaper.aiChatPaper

К универсальному пониманию видео матчей по футболу

Towards Universal Soccer Video Understanding

December 2, 2024
Авторы: Jiayuan Rao, Haoning Wu, Hao Jiang, Ya Zhang, Yanfeng Wang, Weidi Xie
cs.AI

Аннотация

Футбол, как всемирно популярный вид спорта, привлекает широкий интерес болельщиков со всех уголков мира. Цель данной статьи - разработать комплексную мультимодальную систему для анализа видео матчей по футболу. В частности, в данной работе мы вносим следующие вклады: (i) мы представляем SoccerReplay-1988, самый крупный мультимодальный набор данных по футболу на сегодняшний день, включающий видео и подробные аннотации с 1,988 полных матчей, с использованием автоматизированного процесса аннотирования; (ii) мы представляем первую модель фундаментального визуально-языкового анализа в области футбола, MatchVision, которая использует пространственно-временную информацию по видео матчей и успешно справляется с различными задачами; (iii) мы проводим обширные эксперименты и исследования по классификации событий, генерации комментариев и распознаванию нарушений с разных ракурсов. MatchVision демонстрирует передовую производительность во всех этих задачах, значительно превосходя существующие модели, что подчеркивает превосходство наших предложенных данных и модели. Мы считаем, что данная работа установит стандартный парадигму для исследований в области понимания спорта.
English
As a globally celebrated sport, soccer has attracted widespread interest from fans all over the world. This paper aims to develop a comprehensive multi-modal framework for soccer video understanding. Specifically, we make the following contributions in this paper: (i) we introduce SoccerReplay-1988, the largest multi-modal soccer dataset to date, featuring videos and detailed annotations from 1,988 complete matches, with an automated annotation pipeline; (ii) we present the first visual-language foundation model in the soccer domain, MatchVision, which leverages spatiotemporal information across soccer videos and excels in various downstream tasks; (iii) we conduct extensive experiments and ablation studies on event classification, commentary generation, and multi-view foul recognition. MatchVision demonstrates state-of-the-art performance on all of them, substantially outperforming existing models, which highlights the superiority of our proposed data and model. We believe that this work will offer a standard paradigm for sports understanding research.

Summary

AI-Generated Summary

PDF122December 6, 2024