LangSchlüssel: Schlüsselwortextraktion für lange Dokumente
LongKey: Keyphrase Extraction for Long Documents
November 26, 2024
Autoren: Jeovane Honorio Alves, Radu State, Cinthia Obladen de Almendra Freitas, Jean Paul Barddal
cs.AI
Zusammenfassung
In einer Ära der Informationsüberlastung ist es zunehmend unpraktisch, den umfangreichen und stetig wachsenden Bestand an Dokumenten und wissenschaftlichen Arbeiten manuell zu annotieren. Die automatisierte Extraktion von Schlüsselbegriffen begegnet dieser Herausforderung, indem sie repräsentative Begriffe in Texten identifiziert. Die meisten bestehenden Methoden konzentrieren sich jedoch auf kurze Dokumente (bis zu 512 Token), was eine Lücke bei der Verarbeitung von Dokumenten mit langem Kontext hinterlässt. In diesem Artikel stellen wir LongKey vor, ein neuartiges Framework zur Extraktion von Schlüsselbegriffen aus umfangreichen Dokumenten, das ein auf einem Encoder basierendes Sprachmodell verwendet, um erweiterte Textfeinheiten zu erfassen. LongKey nutzt einen Max-Pooling-Embedder zur Verbesserung der Repräsentation von Schlüsselbegriffskandidaten. Validiert anhand der umfassenden LDKP-Datensätze und sechs verschiedenen, unveröffentlichten Datensätzen übertrifft LongKey kontinuierlich bestehende unüberwachte und auf Sprachmodellen basierende Methoden zur Schlüsselbegriffsextraktion. Unsere Ergebnisse zeigen die Vielseitigkeit und überlegene Leistung von LongKey auf und markieren einen Fortschritt in der Schlüsselbegriffsextraktion für unterschiedliche Textlängen und -bereiche.
English
In an era of information overload, manually annotating the vast and growing
corpus of documents and scholarly papers is increasingly impractical. Automated
keyphrase extraction addresses this challenge by identifying representative
terms within texts. However, most existing methods focus on short documents (up
to 512 tokens), leaving a gap in processing long-context documents. In this
paper, we introduce LongKey, a novel framework for extracting keyphrases from
lengthy documents, which uses an encoder-based language model to capture
extended text intricacies. LongKey uses a max-pooling embedder to enhance
keyphrase candidate representation. Validated on the comprehensive LDKP
datasets and six diverse, unseen datasets, LongKey consistently outperforms
existing unsupervised and language model-based keyphrase extraction methods.
Our findings demonstrate LongKey's versatility and superior performance,
marking an advancement in keyphrase extraction for varied text lengths and
domains.Summary
AI-Generated Summary