MatchTime : Vers une génération automatique de commentaires pour les matchs de football
MatchTime: Towards Automatic Soccer Game Commentary Generation
June 26, 2024
Auteurs: Jiayuan Rao, Haoning Wu, Chang Liu, Yanfeng Wang, Weidi Xie
cs.AI
Résumé
Le football est un sport populaire à l'échelle mondiale, bénéficiant d'un vaste public. Dans cet article, nous envisageons de construire un modèle de commentaire automatique des matchs de football afin d'améliorer l'expérience de visionnage des spectateurs. De manière générale, nous apportons les contributions suivantes : Premièrement, en observant le désalignement vidéo-texte prévalant dans les jeux de données existants, nous annotons manuellement les timestamps pour 49 matchs, établissant ainsi un benchmark plus robuste pour la génération de commentaires de matchs de football, nommé SN-Caption-test-align ; Deuxièmement, nous proposons un pipeline d'alignement temporel multimodal pour corriger et filtrer automatiquement le jeu de données existant à grande échelle, créant ainsi un jeu de données de commentaires de matchs de football de meilleure qualité pour l'entraînement, dénommé MatchTime ; Troisièmement, sur la base de notre jeu de données soigneusement constitué, nous entraînons un modèle de génération automatique de commentaires, appelé MatchVoice. Des expériences approfondies et des études d'ablation ont démontré l'efficacité de notre pipeline d'alignement, et l'entraînement du modèle sur les jeux de données curés atteint des performances de pointe pour la génération de commentaires, montrant qu'un meilleur alignement peut conduire à des améliorations significatives des performances dans les tâches en aval.
English
Soccer is a globally popular sport with a vast audience, in this paper, we
consider constructing an automatic soccer game commentary model to improve the
audiences' viewing experience. In general, we make the following contributions:
First, observing the prevalent video-text misalignment in existing datasets, we
manually annotate timestamps for 49 matches, establishing a more robust
benchmark for soccer game commentary generation, termed as
SN-Caption-test-align; Second, we propose a multi-modal temporal alignment
pipeline to automatically correct and filter the existing dataset at scale,
creating a higher-quality soccer game commentary dataset for training, denoted
as MatchTime; Third, based on our curated dataset, we train an automatic
commentary generation model, named MatchVoice. Extensive experiments and
ablation studies have demonstrated the effectiveness of our alignment pipeline,
and training model on the curated datasets achieves state-of-the-art
performance for commentary generation, showcasing that better alignment can
lead to significant performance improvements in downstream tasks.Summary
AI-Generated Summary