MatchTime: Verso la Generazione Automatica di Commenti per Partite di Calcio
MatchTime: Towards Automatic Soccer Game Commentary Generation
June 26, 2024
Autori: Jiayuan Rao, Haoning Wu, Chang Liu, Yanfeng Wang, Weidi Xie
cs.AI
Abstract
Il calcio è uno sport di grande popolarità globale con un vasto pubblico. In questo articolo, consideriamo la costruzione di un modello automatico di commento delle partite di calcio per migliorare l'esperienza di visione del pubblico. In generale, apportiamo i seguenti contributi: in primo luogo, osservando il diffuso disallineamento video-testo nei dataset esistenti, abbiamo annotato manualmente i timestamp per 49 partite, stabilendo un benchmark più solido per la generazione di commenti alle partite di calcio, denominato SN-Caption-test-align; in secondo luogo, proponiamo una pipeline di allineamento temporale multi-modale per correggere e filtrare automaticamente il dataset esistente su larga scala, creando un dataset di commenti alle partite di calcio di qualità superiore per l'addestramento, denominato MatchTime; in terzo luogo, basandoci sul nostro dataset curato, abbiamo addestrato un modello automatico di generazione di commenti, chiamato MatchVoice. Esperimenti estesi e studi di ablazione hanno dimostrato l'efficacia della nostra pipeline di allineamento, e l'addestramento del modello sui dataset curati ha raggiunto prestazioni all'avanguardia per la generazione di commenti, dimostrando che un migliore allineamento può portare a significativi miglioramenti delle prestazioni nei task downstream.
English
Soccer is a globally popular sport with a vast audience, in this paper, we
consider constructing an automatic soccer game commentary model to improve the
audiences' viewing experience. In general, we make the following contributions:
First, observing the prevalent video-text misalignment in existing datasets, we
manually annotate timestamps for 49 matches, establishing a more robust
benchmark for soccer game commentary generation, termed as
SN-Caption-test-align; Second, we propose a multi-modal temporal alignment
pipeline to automatically correct and filter the existing dataset at scale,
creating a higher-quality soccer game commentary dataset for training, denoted
as MatchTime; Third, based on our curated dataset, we train an automatic
commentary generation model, named MatchVoice. Extensive experiments and
ablation studies have demonstrated the effectiveness of our alignment pipeline,
and training model on the curated datasets achieves state-of-the-art
performance for commentary generation, showcasing that better alignment can
lead to significant performance improvements in downstream tasks.