ChatPaper.aiChatPaper

MovieSum: 영화 대본을 위한 추상적 요약 데이터셋

MovieSum: An Abstractive Summarization Dataset for Movie Screenplays

August 12, 2024
저자: Rohit Saxena, Frank Keller
cs.AI

초록

영화 대본 요약은 오랜 입력 맥락과 영화에 고유한 다양한 요소를 이해해야 하기 때문에 어려운 과제입니다. 대형 언어 모델은 문서 요약에서 큰 진전을 보여주었지만 종종 긴 입력 맥락을 처리하는 데 어려움을 겪습니다. 게다가 최근 연구에서 텔레비전 대본에 주목을 기울였지만, 영화 대본 요약은 아직 충분히 탐구되지 않았습니다. 이 분야의 연구를 촉진하기 위해 영화 대본의 추상적 요약을 위한 새로운 데이터 세트인 MovieSum을 제시합니다. 이 데이터 세트는 2200편의 영화 대본과 그들의 위키백과 줄거리 요약을 포함하고 있습니다. 우리는 영화 대본을 그들의 구조적 요소를 나타내도록 수동으로 형식화했습니다. 기존 데이터 세트와 비교했을 때, MovieSum은 여러 독특한 특징을 갖고 있습니다: (1) TV 에피소드 대본보다 긴 영화 대본을 포함하고 있습니다. (2) 이전 영화 대본 데이터 세트의 두 배 크기입니다. (3) 추가적인 외부 지식에 대한 접근을 용이하게 하기 위해 IMDb ID와 메타데이터를 제공합니다. 또한 최근에 공개된 대형 언어 모델이 우리 데이터 세트에 적용된 요약 결과를 제시하여 자세한 기준선을 제공합니다.
English
Movie screenplay summarization is challenging, as it requires an understanding of long input contexts and various elements unique to movies. Large language models have shown significant advancements in document summarization, but they often struggle with processing long input contexts. Furthermore, while television transcripts have received attention in recent studies, movie screenplay summarization remains underexplored. To stimulate research in this area, we present a new dataset, MovieSum, for abstractive summarization of movie screenplays. This dataset comprises 2200 movie screenplays accompanied by their Wikipedia plot summaries. We manually formatted the movie screenplays to represent their structural elements. Compared to existing datasets, MovieSum possesses several distinctive features: (1) It includes movie screenplays, which are longer than scripts of TV episodes. (2) It is twice the size of previous movie screenplay datasets. (3) It provides metadata with IMDb IDs to facilitate access to additional external knowledge. We also show the results of recently released large language models applied to summarization on our dataset to provide a detailed baseline.

Summary

AI-Generated Summary

PDF92November 28, 2024