ChatPaper.aiChatPaper

MovieSum: 映画脚本のための抽象的要約データセット

MovieSum: An Abstractive Summarization Dataset for Movie Screenplays

August 12, 2024
著者: Rohit Saxena, Frank Keller
cs.AI

要旨

映画脚本の要約は、長い入力文脈と映画特有の様々な要素を理解する必要があるため、挑戦的な課題です。大規模言語モデルは文書要約において大きな進歩を見せていますが、長い入力文脈の処理には依然として苦戦しています。さらに、テレビ番組の台本は最近の研究で注目を集めていますが、映画脚本の要約はまだ十分に研究されていません。この分野の研究を促進するため、私たちは映画脚本の抽象的要約のための新しいデータセット、MovieSumを提供します。このデータセットは、2200本の映画脚本とそれに対応するWikipediaのプロット概要で構成されています。私たちは、映画脚本の構造的要素を表現するために、手動でフォーマットを行いました。既存のデータセットと比較して、MovieSumにはいくつかの特徴があります:(1)テレビエピソードの脚本よりも長い映画脚本を含んでいます。(2)以前の映画脚本データセットの2倍の規模です。(3)追加の外部知識へのアクセスを容易にするため、IMDb IDを含むメタデータを提供します。また、最近リリースされた大規模言語モデルを私たちのデータセットに適用した要約の結果を示し、詳細なベースラインを提供します。
English
Movie screenplay summarization is challenging, as it requires an understanding of long input contexts and various elements unique to movies. Large language models have shown significant advancements in document summarization, but they often struggle with processing long input contexts. Furthermore, while television transcripts have received attention in recent studies, movie screenplay summarization remains underexplored. To stimulate research in this area, we present a new dataset, MovieSum, for abstractive summarization of movie screenplays. This dataset comprises 2200 movie screenplays accompanied by their Wikipedia plot summaries. We manually formatted the movie screenplays to represent their structural elements. Compared to existing datasets, MovieSum possesses several distinctive features: (1) It includes movie screenplays, which are longer than scripts of TV episodes. (2) It is twice the size of previous movie screenplay datasets. (3) It provides metadata with IMDb IDs to facilitate access to additional external knowledge. We also show the results of recently released large language models applied to summarization on our dataset to provide a detailed baseline.

Summary

AI-Generated Summary

PDF92November 28, 2024