MatchTime: Auf dem Weg zur automatischen Generierung von Fußballspielkommentaren
MatchTime: Towards Automatic Soccer Game Commentary Generation
June 26, 2024
Autoren: Jiayuan Rao, Haoning Wu, Chang Liu, Yanfeng Wang, Weidi Xie
cs.AI
Zusammenfassung
Fußball ist eine weltweit beliebte Sportart mit einem großen Publikum. In diesem Papier betrachten wir die Entwicklung eines automatischen Fußballkommentarmodells, um das Seherlebnis des Publikums zu verbessern. Im Allgemeinen leisten wir folgende Beiträge: Erstens beobachten wir die weit verbreitete Video-Text-Missabstimmung in vorhandenen Datensätzen und annotieren manuell Zeitstempel für 49 Spiele, um einen robusteren Benchmark für die Generierung von Fußballkommentaren zu schaffen, genannt SN-Caption-test-align. Zweitens schlagen wir eine multimodale zeitliche Abstimmungspipeline vor, um den bestehenden Datensatz automatisch im großen Maßstab zu korrigieren und zu filtern, wodurch ein qualitativ hochwertigerer Datensatz für das Training von Fußballkommentaren entsteht, bezeichnet als MatchTime. Drittens trainieren wir basierend auf unserem kuratierten Datensatz ein automatisches Kommentargenerierungsmodell namens MatchVoice. Umfangreiche Experimente und Ablationsstudien haben die Wirksamkeit unserer Abstimmungspipeline und des Trainingsmodells auf den kuratierten Datensätzen gezeigt, die eine Spitzenleistung für die Kommentargenerierung erzielen. Dies verdeutlicht, dass eine bessere Abstimmung signifikante Leistungsverbesserungen bei nachgelagerten Aufgaben bewirken kann.
English
Soccer is a globally popular sport with a vast audience, in this paper, we
consider constructing an automatic soccer game commentary model to improve the
audiences' viewing experience. In general, we make the following contributions:
First, observing the prevalent video-text misalignment in existing datasets, we
manually annotate timestamps for 49 matches, establishing a more robust
benchmark for soccer game commentary generation, termed as
SN-Caption-test-align; Second, we propose a multi-modal temporal alignment
pipeline to automatically correct and filter the existing dataset at scale,
creating a higher-quality soccer game commentary dataset for training, denoted
as MatchTime; Third, based on our curated dataset, we train an automatic
commentary generation model, named MatchVoice. Extensive experiments and
ablation studies have demonstrated the effectiveness of our alignment pipeline,
and training model on the curated datasets achieves state-of-the-art
performance for commentary generation, showcasing that better alignment can
lead to significant performance improvements in downstream tasks.Summary
AI-Generated Summary