MatchTime: Hacia la Generación Automática de Comentarios en Partidos de Fútbol
MatchTime: Towards Automatic Soccer Game Commentary Generation
June 26, 2024
Autores: Jiayuan Rao, Haoning Wu, Chang Liu, Yanfeng Wang, Weidi Xie
cs.AI
Resumen
El fútbol es un deporte de gran popularidad mundial con una audiencia masiva. En este artículo, consideramos la construcción de un modelo automático de comentarios de partidos de fútbol para mejorar la experiencia de visualización de la audiencia. En general, realizamos las siguientes contribuciones: En primer lugar, al observar la desalineación generalizada entre video y texto en los conjuntos de datos existentes, anotamos manualmente marcas de tiempo para 49 partidos, estableciendo un punto de referencia más sólido para la generación de comentarios de partidos de fútbol, denominado SN-Caption-test-align; En segundo lugar, proponemos una pipeline de alineación temporal multimodal para corregir y filtrar automáticamente el conjunto de datos existente a gran escala, creando un conjunto de datos de comentarios de fútbol de mayor calidad para entrenamiento, denominado MatchTime; En tercer lugar, basándonos en nuestro conjunto de datos curado, entrenamos un modelo automático de generación de comentarios, llamado MatchVoice. Experimentos exhaustivos y estudios de ablación han demostrado la efectividad de nuestra pipeline de alineación, y el entrenamiento del modelo en los conjuntos de datos curados alcanza un rendimiento de vanguardia en la generación de comentarios, mostrando que una mejor alineación puede conducir a mejoras significativas en el rendimiento de tareas posteriores.
English
Soccer is a globally popular sport with a vast audience, in this paper, we
consider constructing an automatic soccer game commentary model to improve the
audiences' viewing experience. In general, we make the following contributions:
First, observing the prevalent video-text misalignment in existing datasets, we
manually annotate timestamps for 49 matches, establishing a more robust
benchmark for soccer game commentary generation, termed as
SN-Caption-test-align; Second, we propose a multi-modal temporal alignment
pipeline to automatically correct and filter the existing dataset at scale,
creating a higher-quality soccer game commentary dataset for training, denoted
as MatchTime; Third, based on our curated dataset, we train an automatic
commentary generation model, named MatchVoice. Extensive experiments and
ablation studies have demonstrated the effectiveness of our alignment pipeline,
and training model on the curated datasets achieves state-of-the-art
performance for commentary generation, showcasing that better alignment can
lead to significant performance improvements in downstream tasks.Summary
AI-Generated Summary