ChatPaper.aiChatPaper

MovieSum: Um Conjunto de Dados de Sumarização Abstrativa para Roteiros de Filmes

MovieSum: An Abstractive Summarization Dataset for Movie Screenplays

August 12, 2024
Autores: Rohit Saxena, Frank Keller
cs.AI

Resumo

A sumarização de roteiros de filmes é desafiadora, pois requer compreensão de contextos de entrada longos e vários elementos únicos dos filmes. Modelos de linguagem grandes têm demonstrado avanços significativos na sumarização de documentos, mas frequentemente enfrentam dificuldades ao processar contextos de entrada longos. Além disso, enquanto transcrições de televisão têm recebido atenção em estudos recentes, a sumarização de roteiros de filmes permanece pouco explorada. Para estimular a pesquisa nessa área, apresentamos um novo conjunto de dados, MovieSum, para sumarização abstrativa de roteiros de filmes. Este conjunto de dados é composto por 2200 roteiros de filmes acompanhados por seus resumos de enredo da Wikipedia. Formatamos manualmente os roteiros de filmes para representar seus elementos estruturais. Em comparação com conjuntos de dados existentes, o MovieSum possui várias características distintas: (1) Inclui roteiros de filmes, que são mais longos do que os scripts de episódios de TV. (2) É duas vezes maior do que conjuntos de dados anteriores de roteiros de filmes. (3) Fornece metadados com IDs do IMDb para facilitar o acesso a conhecimento externo adicional. Também apresentamos os resultados de modelos de linguagem grandes recentemente lançados aplicados à sumarização em nosso conjunto de dados para fornecer uma linha de base detalhada.
English
Movie screenplay summarization is challenging, as it requires an understanding of long input contexts and various elements unique to movies. Large language models have shown significant advancements in document summarization, but they often struggle with processing long input contexts. Furthermore, while television transcripts have received attention in recent studies, movie screenplay summarization remains underexplored. To stimulate research in this area, we present a new dataset, MovieSum, for abstractive summarization of movie screenplays. This dataset comprises 2200 movie screenplays accompanied by their Wikipedia plot summaries. We manually formatted the movie screenplays to represent their structural elements. Compared to existing datasets, MovieSum possesses several distinctive features: (1) It includes movie screenplays, which are longer than scripts of TV episodes. (2) It is twice the size of previous movie screenplay datasets. (3) It provides metadata with IMDb IDs to facilitate access to additional external knowledge. We also show the results of recently released large language models applied to summarization on our dataset to provide a detailed baseline.

Summary

AI-Generated Summary

PDF92November 28, 2024