長文書のためのキーフレーズ抽出
LongKey: Keyphrase Extraction for Long Documents
November 26, 2024
著者: Jeovane Honorio Alves, Radu State, Cinthia Obladen de Almendra Freitas, Jean Paul Barddal
cs.AI
要旨
情報過多の時代において、膨大で増加し続ける文書や学術論文の手作業による注釈付けはますます実用的ではありません。自動キーフレーズ抽出は、テキスト内の代表的な用語を特定することでこの課題に対処します。しかし、ほとんどの既存手法は短い文書(最大512トークンまで)に焦点を当てており、長文書の処理には課題が残っています。本論文では、長文書からキーフレーズを抽出するための新しいフレームワークであるLongKeyを紹介します。このフレームワークは、エンコーダーベースの言語モデルを使用して拡張テキストの複雑さを捉えます。LongKeyは、キーフレーズ候補の表現を向上させるために最大プーリング埋め込みを使用します。包括的なLDKPデータセットと6つの異なる未知のデータセットで検証された結果、LongKeyは一貫して既存の教師なしおよび言語モデルベースのキーフレーズ抽出手法を上回ります。我々の調査結果は、LongKeyの汎用性と優れた性能を示し、異なるテキスト長や領域におけるキーフレーズ抽出の進歩を示しています。
English
In an era of information overload, manually annotating the vast and growing
corpus of documents and scholarly papers is increasingly impractical. Automated
keyphrase extraction addresses this challenge by identifying representative
terms within texts. However, most existing methods focus on short documents (up
to 512 tokens), leaving a gap in processing long-context documents. In this
paper, we introduce LongKey, a novel framework for extracting keyphrases from
lengthy documents, which uses an encoder-based language model to capture
extended text intricacies. LongKey uses a max-pooling embedder to enhance
keyphrase candidate representation. Validated on the comprehensive LDKP
datasets and six diverse, unseen datasets, LongKey consistently outperforms
existing unsupervised and language model-based keyphrase extraction methods.
Our findings demonstrate LongKey's versatility and superior performance,
marking an advancement in keyphrase extraction for varied text lengths and
domains.Summary
AI-Generated Summary