ChatPaper.aiChatPaper

MovieSum: Un conjunto de datos de resumen abtractivo para guiones de películas

MovieSum: An Abstractive Summarization Dataset for Movie Screenplays

August 12, 2024
Autores: Rohit Saxena, Frank Keller
cs.AI

Resumen

La síntesis de guiones de películas es un desafío, ya que requiere comprender contextos de entrada extensos y varios elementos únicos de las películas. Los grandes modelos de lenguaje han demostrado avances significativos en la síntesis de documentos, pero a menudo tienen dificultades para procesar contextos de entrada largos. Además, mientras que las transcripciones de televisión han recibido atención en estudios recientes, la síntesis de guiones de películas sigue siendo poco explorada. Para estimular la investigación en esta área, presentamos un nuevo conjunto de datos, MovieSum, para la síntesis abtractiva de guiones de películas. Este conjunto de datos consta de 2200 guiones de películas acompañados de sus resúmenes de trama de Wikipedia. Formateamos manualmente los guiones de películas para representar sus elementos estructurales. En comparación con los conjuntos de datos existentes, MovieSum posee varias características distintivas: (1) Incluye guiones de películas, que son más largos que los guiones de episodios de televisión. (2) Es el doble de tamaño que los conjuntos de datos anteriores de guiones de películas. (3) Proporciona metadatos con identificadores de IMDb para facilitar el acceso a conocimientos externos adicionales. También mostramos los resultados de los grandes modelos de lenguaje recientemente lanzados aplicados a la síntesis en nuestro conjunto de datos para proporcionar una línea base detallada.
English
Movie screenplay summarization is challenging, as it requires an understanding of long input contexts and various elements unique to movies. Large language models have shown significant advancements in document summarization, but they often struggle with processing long input contexts. Furthermore, while television transcripts have received attention in recent studies, movie screenplay summarization remains underexplored. To stimulate research in this area, we present a new dataset, MovieSum, for abstractive summarization of movie screenplays. This dataset comprises 2200 movie screenplays accompanied by their Wikipedia plot summaries. We manually formatted the movie screenplays to represent their structural elements. Compared to existing datasets, MovieSum possesses several distinctive features: (1) It includes movie screenplays, which are longer than scripts of TV episodes. (2) It is twice the size of previous movie screenplay datasets. (3) It provides metadata with IMDb IDs to facilitate access to additional external knowledge. We also show the results of recently released large language models applied to summarization on our dataset to provide a detailed baseline.

Summary

AI-Generated Summary

PDF92November 28, 2024