MovieSum: Ein abstraktes Zusammenfassungsdatenset für Drehbücher von Filmen.
MovieSum: An Abstractive Summarization Dataset for Movie Screenplays
August 12, 2024
Autoren: Rohit Saxena, Frank Keller
cs.AI
Zusammenfassung
Die Zusammenfassung von Film-Drehbüchern ist eine Herausforderung, da sie ein Verständnis für lange Eingabekontexte und verschiedene Elemente erfordert, die für Filme einzigartig sind. Große Sprachmodelle haben signifikante Fortschritte bei der Dokumentenzusammenfassung gezeigt, haben jedoch oft Schwierigkeiten bei der Verarbeitung langer Eingabekontexte. Darüber hinaus, während Fernsehtranskripte in jüngsten Studien Aufmerksamkeit erhalten haben, bleibt die Zusammenfassung von Film-Drehbüchern untererforscht. Um die Forschung in diesem Bereich zu stimulieren, präsentieren wir ein neues Datenset, MovieSum, für die abstrakte Zusammenfassung von Film-Drehbüchern. Dieses Datenset umfasst 2200 Film-Drehbücher zusammen mit ihren Wikipedia-Handlungsübersichten. Wir haben die Film-Drehbücher manuell formatiert, um ihre strukturellen Elemente darzustellen. Im Vergleich zu bestehenden Datensets weist MovieSum mehrere einzigartige Merkmale auf: (1) Es enthält Film-Drehbücher, die länger sind als Skripte von TV-Episoden. (2) Es ist doppelt so groß wie vorherige Datensets von Film-Drehbüchern. (3) Es bietet Metadaten mit IMDb-IDs, um den Zugriff auf zusätzliches externes Wissen zu erleichtern. Wir zeigen auch die Ergebnisse von kürzlich veröffentlichten großen Sprachmodellen, die auf unserer Datensammlung zur Zusammenfassung angewendet wurden, um eine detaillierte Basislinie bereitzustellen.
English
Movie screenplay summarization is challenging, as it requires an
understanding of long input contexts and various elements unique to movies.
Large language models have shown significant advancements in document
summarization, but they often struggle with processing long input contexts.
Furthermore, while television transcripts have received attention in recent
studies, movie screenplay summarization remains underexplored. To stimulate
research in this area, we present a new dataset, MovieSum, for abstractive
summarization of movie screenplays. This dataset comprises 2200 movie
screenplays accompanied by their Wikipedia plot summaries. We manually
formatted the movie screenplays to represent their structural elements.
Compared to existing datasets, MovieSum possesses several distinctive features:
(1) It includes movie screenplays, which are longer than scripts of TV
episodes. (2) It is twice the size of previous movie screenplay datasets. (3)
It provides metadata with IMDb IDs to facilitate access to additional external
knowledge. We also show the results of recently released large language models
applied to summarization on our dataset to provide a detailed baseline.Summary
AI-Generated Summary