ChatPaper.aiChatPaper

MatchTime: Auf dem Weg zur automatischen Generierung von Fußballspielkommentaren

MatchTime: Towards Automatic Soccer Game Commentary Generation

June 26, 2024
Autoren: Jiayuan Rao, Haoning Wu, Chang Liu, Yanfeng Wang, Weidi Xie
cs.AI

Zusammenfassung

Fußball ist eine weltweit beliebte Sportart mit einem großen Publikum. In diesem Papier betrachten wir die Entwicklung eines automatischen Fußballkommentarmodells, um das Seherlebnis des Publikums zu verbessern. Im Allgemeinen leisten wir folgende Beiträge: Erstens beobachten wir die weit verbreitete Video-Text-Missabstimmung in vorhandenen Datensätzen und annotieren manuell Zeitstempel für 49 Spiele, um einen robusteren Benchmark für die Generierung von Fußballkommentaren zu schaffen, genannt SN-Caption-test-align. Zweitens schlagen wir eine multimodale zeitliche Abstimmungspipeline vor, um den bestehenden Datensatz automatisch im großen Maßstab zu korrigieren und zu filtern, wodurch ein qualitativ hochwertigerer Datensatz für das Training von Fußballkommentaren entsteht, bezeichnet als MatchTime. Drittens trainieren wir basierend auf unserem kuratierten Datensatz ein automatisches Kommentargenerierungsmodell namens MatchVoice. Umfangreiche Experimente und Ablationsstudien haben die Wirksamkeit unserer Abstimmungspipeline und des Trainingsmodells auf den kuratierten Datensätzen gezeigt, die eine Spitzenleistung für die Kommentargenerierung erzielen. Dies verdeutlicht, dass eine bessere Abstimmung signifikante Leistungsverbesserungen bei nachgelagerten Aufgaben bewirken kann.
English
Soccer is a globally popular sport with a vast audience, in this paper, we consider constructing an automatic soccer game commentary model to improve the audiences' viewing experience. In general, we make the following contributions: First, observing the prevalent video-text misalignment in existing datasets, we manually annotate timestamps for 49 matches, establishing a more robust benchmark for soccer game commentary generation, termed as SN-Caption-test-align; Second, we propose a multi-modal temporal alignment pipeline to automatically correct and filter the existing dataset at scale, creating a higher-quality soccer game commentary dataset for training, denoted as MatchTime; Third, based on our curated dataset, we train an automatic commentary generation model, named MatchVoice. Extensive experiments and ablation studies have demonstrated the effectiveness of our alignment pipeline, and training model on the curated datasets achieves state-of-the-art performance for commentary generation, showcasing that better alignment can lead to significant performance improvements in downstream tasks.

Summary

AI-Generated Summary

PDF124November 29, 2024