ChatPaper.aiChatPaper

LongKey: Extracción de Frase Clave para Documentos Largos

LongKey: Keyphrase Extraction for Long Documents

November 26, 2024
Autores: Jeovane Honorio Alves, Radu State, Cinthia Obladen de Almendra Freitas, Jean Paul Barddal
cs.AI

Resumen

En una era de sobrecarga de información, anotar manualmente el vasto y creciente corpus de documentos y artículos académicos es cada vez más impráctico. La extracción automatizada de frases clave aborda este desafío al identificar términos representativos dentro de los textos. Sin embargo, la mayoría de los métodos existentes se centran en documentos cortos (hasta 512 tokens), dejando un vacío en el procesamiento de documentos con un contexto extenso. En este artículo, presentamos LongKey, un nuevo marco para extraer frases clave de documentos extensos, que utiliza un modelo de lenguaje basado en un codificador para capturar las complejidades del texto extendido. LongKey utiliza un incrustador de max-pooling para mejorar la representación de los candidatos a frases clave. Validado en los completos conjuntos de datos LDKP y seis conjuntos de datos diversos no vistos, LongKey supera consistentemente a los métodos existentes de extracción de frases clave no supervisados y basados en modelos de lenguaje. Nuestros hallazgos demuestran la versatilidad y el rendimiento superior de LongKey, marcando un avance en la extracción de frases clave para diferentes longitudes y dominios de texto.
English
In an era of information overload, manually annotating the vast and growing corpus of documents and scholarly papers is increasingly impractical. Automated keyphrase extraction addresses this challenge by identifying representative terms within texts. However, most existing methods focus on short documents (up to 512 tokens), leaving a gap in processing long-context documents. In this paper, we introduce LongKey, a novel framework for extracting keyphrases from lengthy documents, which uses an encoder-based language model to capture extended text intricacies. LongKey uses a max-pooling embedder to enhance keyphrase candidate representation. Validated on the comprehensive LDKP datasets and six diverse, unseen datasets, LongKey consistently outperforms existing unsupervised and language model-based keyphrase extraction methods. Our findings demonstrate LongKey's versatility and superior performance, marking an advancement in keyphrase extraction for varied text lengths and domains.

Summary

AI-Generated Summary

PDF122November 29, 2024