ChatPaper.aiChatPaper

MovieSum: Ein abstraktes Zusammenfassungsdatenset für Drehbücher von Filmen.

MovieSum: An Abstractive Summarization Dataset for Movie Screenplays

August 12, 2024
Autoren: Rohit Saxena, Frank Keller
cs.AI

Zusammenfassung

Die Zusammenfassung von Film-Drehbüchern ist eine Herausforderung, da sie ein Verständnis für lange Eingabekontexte und verschiedene Elemente erfordert, die für Filme einzigartig sind. Große Sprachmodelle haben signifikante Fortschritte bei der Dokumentenzusammenfassung gezeigt, haben jedoch oft Schwierigkeiten bei der Verarbeitung langer Eingabekontexte. Darüber hinaus, während Fernsehtranskripte in jüngsten Studien Aufmerksamkeit erhalten haben, bleibt die Zusammenfassung von Film-Drehbüchern untererforscht. Um die Forschung in diesem Bereich zu stimulieren, präsentieren wir ein neues Datenset, MovieSum, für die abstrakte Zusammenfassung von Film-Drehbüchern. Dieses Datenset umfasst 2200 Film-Drehbücher zusammen mit ihren Wikipedia-Handlungsübersichten. Wir haben die Film-Drehbücher manuell formatiert, um ihre strukturellen Elemente darzustellen. Im Vergleich zu bestehenden Datensets weist MovieSum mehrere einzigartige Merkmale auf: (1) Es enthält Film-Drehbücher, die länger sind als Skripte von TV-Episoden. (2) Es ist doppelt so groß wie vorherige Datensets von Film-Drehbüchern. (3) Es bietet Metadaten mit IMDb-IDs, um den Zugriff auf zusätzliches externes Wissen zu erleichtern. Wir zeigen auch die Ergebnisse von kürzlich veröffentlichten großen Sprachmodellen, die auf unserer Datensammlung zur Zusammenfassung angewendet wurden, um eine detaillierte Basislinie bereitzustellen.
English
Movie screenplay summarization is challenging, as it requires an understanding of long input contexts and various elements unique to movies. Large language models have shown significant advancements in document summarization, but they often struggle with processing long input contexts. Furthermore, while television transcripts have received attention in recent studies, movie screenplay summarization remains underexplored. To stimulate research in this area, we present a new dataset, MovieSum, for abstractive summarization of movie screenplays. This dataset comprises 2200 movie screenplays accompanied by their Wikipedia plot summaries. We manually formatted the movie screenplays to represent their structural elements. Compared to existing datasets, MovieSum possesses several distinctive features: (1) It includes movie screenplays, which are longer than scripts of TV episodes. (2) It is twice the size of previous movie screenplay datasets. (3) It provides metadata with IMDb IDs to facilitate access to additional external knowledge. We also show the results of recently released large language models applied to summarization on our dataset to provide a detailed baseline.

Summary

AI-Generated Summary

PDF92November 28, 2024