普遍的なサッカー映像理解に向けて
Towards Universal Soccer Video Understanding
December 2, 2024
著者: Jiayuan Rao, Haoning Wu, Hao Jiang, Ya Zhang, Yanfeng Wang, Weidi Xie
cs.AI
要旨
サッカーは世界的に賞賛されるスポーツであり、世界中のファンから広範な関心を集めています。本論文では、サッカー映像の包括的なマルチモーダルフレームワークを開発することを目的としています。具体的には、本論文では以下の貢献を行います:(i) 自動注釈パイプラインを備えた、1,988試合の完全な試合からのビデオと詳細な注釈を特徴とする、これまでで最大のマルチモーダルサッカーデータセットであるSoccerReplay-1988を紹介します;(ii) サッカー分野における初のビジュアル言語基盤モデルであるMatchVisionを提案し、サッカー映像全体での時空間情報を活用し、さまざまな下流タスクで優れた性能を発揮します;(iii) イベント分類、解説生成、およびマルチビュー反則認識に関する包括的な実験と削減研究を実施します。MatchVisionは、これらすべてで最先端の性能を発揮し、既存のモデルを大幅に上回り、提案されたデータとモデルの優越性を強調しています。この研究がスポーツ理解研究の標準的なパラダイムを提供すると信じています。
English
As a globally celebrated sport, soccer has attracted widespread interest from
fans all over the world. This paper aims to develop a comprehensive multi-modal
framework for soccer video understanding. Specifically, we make the following
contributions in this paper: (i) we introduce SoccerReplay-1988, the largest
multi-modal soccer dataset to date, featuring videos and detailed annotations
from 1,988 complete matches, with an automated annotation pipeline; (ii) we
present the first visual-language foundation model in the soccer domain,
MatchVision, which leverages spatiotemporal information across soccer videos
and excels in various downstream tasks; (iii) we conduct extensive experiments
and ablation studies on event classification, commentary generation, and
multi-view foul recognition. MatchVision demonstrates state-of-the-art
performance on all of them, substantially outperforming existing models, which
highlights the superiority of our proposed data and model. We believe that this
work will offer a standard paradigm for sports understanding research.Summary
AI-Generated Summary