ChatPaper.aiChatPaper

LongKey : Extraction de mots-clés pour les documents longs

LongKey: Keyphrase Extraction for Long Documents

November 26, 2024
Auteurs: Jeovane Honorio Alves, Radu State, Cinthia Obladen de Almendra Freitas, Jean Paul Barddal
cs.AI

Résumé

À une époque de surcharge d'informations, annoter manuellement le vaste et croissant corpus de documents et d'articles savants devient de plus en plus impraticable. L'extraction automatisée de mots-clés aborde ce défi en identifiant les termes représentatifs au sein des textes. Cependant, la plupart des méthodes existantes se concentrent sur des documents courts (jusqu'à 512 tokens), laissant une lacune dans le traitement des documents à long contexte. Dans cet article, nous présentons LongKey, un nouveau cadre pour extraire des mots-clés de documents étendus, qui utilise un modèle de langage basé sur un encodeur pour capturer les subtilités du texte étendu. LongKey utilise un incrusteur de max-pooling pour améliorer la représentation des candidats mots-clés. Validé sur les ensembles de données LDKP complets et six ensembles de données divers et inédits, LongKey surpasse constamment les méthodes existantes d'extraction de mots-clés non supervisées et basées sur des modèles de langage. Nos résultats démontrent la polyvalence et les performances supérieures de LongKey, marquant une avancée dans l'extraction de mots-clés pour des longueurs de texte et des domaines variés.
English
In an era of information overload, manually annotating the vast and growing corpus of documents and scholarly papers is increasingly impractical. Automated keyphrase extraction addresses this challenge by identifying representative terms within texts. However, most existing methods focus on short documents (up to 512 tokens), leaving a gap in processing long-context documents. In this paper, we introduce LongKey, a novel framework for extracting keyphrases from lengthy documents, which uses an encoder-based language model to capture extended text intricacies. LongKey uses a max-pooling embedder to enhance keyphrase candidate representation. Validated on the comprehensive LDKP datasets and six diverse, unseen datasets, LongKey consistently outperforms existing unsupervised and language model-based keyphrase extraction methods. Our findings demonstrate LongKey's versatility and superior performance, marking an advancement in keyphrase extraction for varied text lengths and domains.

Summary

AI-Generated Summary

PDF122November 29, 2024