ChatPaper.aiChatPaper

LangSleutel: Sleutelzinextractie voor Lange Documenten

LongKey: Keyphrase Extraction for Long Documents

November 26, 2024
Auteurs: Jeovane Honorio Alves, Radu State, Cinthia Obladen de Almendra Freitas, Jean Paul Barddal
cs.AI

Samenvatting

In een tijdperk van informatieverzadiging is het handmatig annoteren van het uitgebreide en groeiende corpus van documenten en wetenschappelijke papers steeds onpraktischer. Geautomatiseerde sleutelwoordextractie pakt deze uitdaging aan door representatieve termen binnen teksten te identificeren. Echter, de meeste bestaande methoden richten zich op korte documenten (tot 512 tokens), waardoor er een hiaat ontstaat in het verwerken van documenten met een lange context. In dit artikel introduceren we LongKey, een nieuw framework voor het extraheren van sleutelwoorden uit uitgebreide documenten, dat een op een encoder gebaseerd taalmodel gebruikt om uitgebreide tekstsubtiliteiten vast te leggen. LongKey maakt gebruik van een max-pooling embedder om de representatie van sleutelwoordkandidaten te verbeteren. Getoetst op de uitgebreide LDKP datasets en zes diverse, ongeziene datasets, presteert LongKey consequent beter dan bestaande ongesuperviseerde en op taalmodellen gebaseerde sleutelwoordextractiemethoden. Onze bevindingen tonen de veelzijdigheid en superieure prestaties van LongKey aan, wat een vooruitgang betekent in sleutelwoordextractie voor verschillende tekstlengtes en domeinen.
English
In an era of information overload, manually annotating the vast and growing corpus of documents and scholarly papers is increasingly impractical. Automated keyphrase extraction addresses this challenge by identifying representative terms within texts. However, most existing methods focus on short documents (up to 512 tokens), leaving a gap in processing long-context documents. In this paper, we introduce LongKey, a novel framework for extracting keyphrases from lengthy documents, which uses an encoder-based language model to capture extended text intricacies. LongKey uses a max-pooling embedder to enhance keyphrase candidate representation. Validated on the comprehensive LDKP datasets and six diverse, unseen datasets, LongKey consistently outperforms existing unsupervised and language model-based keyphrase extraction methods. Our findings demonstrate LongKey's versatility and superior performance, marking an advancement in keyphrase extraction for varied text lengths and domains.
PDF122December 14, 2025