ChatPaper.aiChatPaper

MovieSum : Un ensemble de données pour le résumé abstrait de scénarios de films

MovieSum: An Abstractive Summarization Dataset for Movie Screenplays

August 12, 2024
Auteurs: Rohit Saxena, Frank Keller
cs.AI

Résumé

La synthétisation de scénarios de films représente un défi complexe, car elle nécessite une compréhension de contextes d'entrée longs et de divers éléments spécifiques au cinéma. Les grands modèles de langage ont montré des avancées significatives dans la synthétisation de documents, mais ils éprouvent souvent des difficultés à traiter des contextes d'entrée étendus. Par ailleurs, bien que les transcriptions de séries télévisées aient fait l'objet d'études récentes, la synthétisation de scénarios de films reste peu explorée. Pour stimuler la recherche dans ce domaine, nous présentons un nouveau jeu de données, MovieSum, dédié à la synthétisation abstraite de scénarios de films. Ce jeu de données comprend 2200 scénarios de films accompagnés de leurs résumés d'intrigue issus de Wikipédia. Nous avons formaté manuellement les scénarios pour représenter leurs éléments structurels. Par rapport aux jeux de données existants, MovieSum possède plusieurs caractéristiques distinctives : (1) Il inclut des scénarios de films, qui sont plus longs que ceux des épisodes de séries télévisées. (2) Il est deux fois plus volumineux que les précédents jeux de données de scénarios de films. (3) Il fournit des métadonnées avec des identifiants IMDb pour faciliter l'accès à des connaissances externes supplémentaires. Nous présentons également les résultats des grands modèles de langage récemment publiés appliqués à la synthétisation sur notre jeu de données, afin d'établir une base de référence détaillée.
English
Movie screenplay summarization is challenging, as it requires an understanding of long input contexts and various elements unique to movies. Large language models have shown significant advancements in document summarization, but they often struggle with processing long input contexts. Furthermore, while television transcripts have received attention in recent studies, movie screenplay summarization remains underexplored. To stimulate research in this area, we present a new dataset, MovieSum, for abstractive summarization of movie screenplays. This dataset comprises 2200 movie screenplays accompanied by their Wikipedia plot summaries. We manually formatted the movie screenplays to represent their structural elements. Compared to existing datasets, MovieSum possesses several distinctive features: (1) It includes movie screenplays, which are longer than scripts of TV episodes. (2) It is twice the size of previous movie screenplay datasets. (3) It provides metadata with IMDb IDs to facilitate access to additional external knowledge. We also show the results of recently released large language models applied to summarization on our dataset to provide a detailed baseline.

Summary

AI-Generated Summary

PDF92November 28, 2024