ChatPaper.aiChatPaper

LongKey: Extração de Frase-Chave para Documentos Longos

LongKey: Keyphrase Extraction for Long Documents

November 26, 2024
Autores: Jeovane Honorio Alves, Radu State, Cinthia Obladen de Almendra Freitas, Jean Paul Barddal
cs.AI

Resumo

Numa era de sobrecarga de informações, anotar manualmente o vasto e crescente corpus de documentos e artigos acadêmicos está se tornando cada vez mais impraticável. A extração automatizada de termos-chave aborda esse desafio ao identificar termos representativos dentro de textos. No entanto, a maioria dos métodos existentes se concentra em documentos curtos (até 512 tokens), deixando uma lacuna no processamento de documentos com contexto extenso. Neste artigo, apresentamos o LongKey, um novo framework para extrair termos-chave de documentos extensos, que utiliza um modelo de linguagem baseado em codificador para capturar as complexidades do texto estendido. O LongKey utiliza um incorporador de max-pooling para aprimorar a representação dos candidatos a termos-chave. Validado nos abrangentes conjuntos de dados LDKP e em seis conjuntos de dados diversos e não vistos, o LongKey supera consistentemente os métodos existentes de extração de termos-chave não supervisionados e baseados em modelo de linguagem. Nossas descobertas demonstram a versatilidade e o desempenho superior do LongKey, representando um avanço na extração de termos-chave para diferentes comprimentos de texto e domínios.
English
In an era of information overload, manually annotating the vast and growing corpus of documents and scholarly papers is increasingly impractical. Automated keyphrase extraction addresses this challenge by identifying representative terms within texts. However, most existing methods focus on short documents (up to 512 tokens), leaving a gap in processing long-context documents. In this paper, we introduce LongKey, a novel framework for extracting keyphrases from lengthy documents, which uses an encoder-based language model to capture extended text intricacies. LongKey uses a max-pooling embedder to enhance keyphrase candidate representation. Validated on the comprehensive LDKP datasets and six diverse, unseen datasets, LongKey consistently outperforms existing unsupervised and language model-based keyphrase extraction methods. Our findings demonstrate LongKey's versatility and superior performance, marking an advancement in keyphrase extraction for varied text lengths and domains.
PDF122November 29, 2024