MovieSum : Un ensemble de données pour le résumé abstrait de scénarios de films
MovieSum: An Abstractive Summarization Dataset for Movie Screenplays
August 12, 2024
Auteurs: Rohit Saxena, Frank Keller
cs.AI
Résumé
La synthétisation de scénarios de films représente un défi complexe, car elle nécessite une compréhension de contextes d'entrée longs et de divers éléments spécifiques au cinéma. Les grands modèles de langage ont montré des avancées significatives dans la synthétisation de documents, mais ils éprouvent souvent des difficultés à traiter des contextes d'entrée étendus. Par ailleurs, bien que les transcriptions de séries télévisées aient fait l'objet d'études récentes, la synthétisation de scénarios de films reste peu explorée. Pour stimuler la recherche dans ce domaine, nous présentons un nouveau jeu de données, MovieSum, dédié à la synthétisation abstraite de scénarios de films. Ce jeu de données comprend 2200 scénarios de films accompagnés de leurs résumés d'intrigue issus de Wikipédia. Nous avons formaté manuellement les scénarios pour représenter leurs éléments structurels. Par rapport aux jeux de données existants, MovieSum possède plusieurs caractéristiques distinctives : (1) Il inclut des scénarios de films, qui sont plus longs que ceux des épisodes de séries télévisées. (2) Il est deux fois plus volumineux que les précédents jeux de données de scénarios de films. (3) Il fournit des métadonnées avec des identifiants IMDb pour faciliter l'accès à des connaissances externes supplémentaires. Nous présentons également les résultats des grands modèles de langage récemment publiés appliqués à la synthétisation sur notre jeu de données, afin d'établir une base de référence détaillée.
English
Movie screenplay summarization is challenging, as it requires an
understanding of long input contexts and various elements unique to movies.
Large language models have shown significant advancements in document
summarization, but they often struggle with processing long input contexts.
Furthermore, while television transcripts have received attention in recent
studies, movie screenplay summarization remains underexplored. To stimulate
research in this area, we present a new dataset, MovieSum, for abstractive
summarization of movie screenplays. This dataset comprises 2200 movie
screenplays accompanied by their Wikipedia plot summaries. We manually
formatted the movie screenplays to represent their structural elements.
Compared to existing datasets, MovieSum possesses several distinctive features:
(1) It includes movie screenplays, which are longer than scripts of TV
episodes. (2) It is twice the size of previous movie screenplay datasets. (3)
It provides metadata with IMDb IDs to facilitate access to additional external
knowledge. We also show the results of recently released large language models
applied to summarization on our dataset to provide a detailed baseline.Summary
AI-Generated Summary