ChatPaper.aiChatPaper

ДолгоКлюч: Извлечение ключевых фраз для длинных документов

LongKey: Keyphrase Extraction for Long Documents

November 26, 2024
Авторы: Jeovane Honorio Alves, Radu State, Cinthia Obladen de Almendra Freitas, Jean Paul Barddal
cs.AI

Аннотация

В эпоху информационного перенасыщения ручная аннотация обширного и постоянно растущего корпуса документов и научных статей становится все более непрактичной. Автоматизированное извлечение ключевых фраз решает эту проблему путем выявления репрезентативных терминов в текстах. Однако большинство существующих методов сосредоточены на коротких документах (до 512 токенов), что создает пробел в обработке документов с длинным контекстом. В данной статье мы представляем LongKey, новую структуру для извлечения ключевых фраз из обширных документов, которая использует модель языка на основе кодировщика для улавливания сложностей расширенного текста. LongKey использует эмбеддер с максимальным пулингом для улучшения представления кандидатов в ключевые фразы. Проверенный на обширных наборах данных LDKP и шести разнообразных, невидимых наборах данных, LongKey последовательно превосходит существующие методы извлечения ключевых фраз без учителя и на основе модели языка. Наши результаты демонстрируют универсальность и превосходную производительность LongKey, отмечая прогресс в извлечении ключевых фраз для различных длин текстов и областей.
English
In an era of information overload, manually annotating the vast and growing corpus of documents and scholarly papers is increasingly impractical. Automated keyphrase extraction addresses this challenge by identifying representative terms within texts. However, most existing methods focus on short documents (up to 512 tokens), leaving a gap in processing long-context documents. In this paper, we introduce LongKey, a novel framework for extracting keyphrases from lengthy documents, which uses an encoder-based language model to capture extended text intricacies. LongKey uses a max-pooling embedder to enhance keyphrase candidate representation. Validated on the comprehensive LDKP datasets and six diverse, unseen datasets, LongKey consistently outperforms existing unsupervised and language model-based keyphrase extraction methods. Our findings demonstrate LongKey's versatility and superior performance, marking an advancement in keyphrase extraction for varied text lengths and domains.

Summary

AI-Generated Summary

PDF122November 29, 2024