ReLiK: Извлечение и связывание, быстрое и точное связывание сущностей и извлечение отношений при ограниченных академических ресурсах
ReLiK: Retrieve and LinK, Fast and Accurate Entity Linking and Relation Extraction on an Academic Budget
July 31, 2024
Авторы: Riccardo Orlando, Pere-Lluis Huguet-Cabot, Edoardo Barba, Roberto Navigli
cs.AI
Аннотация
Связывание сущностей (Entity Linking, EL) и извлечение отношений (Relation Extraction, RE) являются фундаментальными задачами в обработке естественного языка, являясь критическими компонентами в широком спектре приложений. В данной статье мы предлагаем ReLiK, архитектуру Retriever-Reader для EL и RE, где, учитывая входной текст, модуль Retriever берет на себя идентификацию кандидатов сущностей или отношений, которые потенциально могут появиться в тексте. Впоследствии модуль Reader обязан различить соответствующие извлеченные сущности или отношения и установить их соответствие с соответствующими текстовыми отрезками. Значительно, мы предлагаем инновационное представление входных данных, которое включает кандидатов сущностей или отношений наряду с текстом, что позволяет связывать сущности или извлекать отношения за один проход и полностью использовать возможности контекстуализации предварительно обученных языковых моделей, в отличие от предыдущих методов на основе Retriever-Reader, требующих прохода для каждого кандидата. Наша формулировка EL и RE достигает передовой производительности как на внутриобластных, так и на внеблочных бенчмарках, используя обучение с участием академического бюджета и обеспечивая скорость вывода до 40 раз выше по сравнению с конкурентами. Наконец, мы показываем, как наша архитектура может быть беспрепятственно использована для извлечения информации (cIE), т.е. EL + RE, и устанавливаем новый уровень качества, используя общий Reader, который одновременно извлекает сущности и отношения.
English
Entity Linking (EL) and Relation Extraction (RE) are fundamental tasks in
Natural Language Processing, serving as critical components in a wide range of
applications. In this paper, we propose ReLiK, a Retriever-Reader architecture
for both EL and RE, where, given an input text, the Retriever module undertakes
the identification of candidate entities or relations that could potentially
appear within the text. Subsequently, the Reader module is tasked to discern
the pertinent retrieved entities or relations and establish their alignment
with the corresponding textual spans. Notably, we put forward an innovative
input representation that incorporates the candidate entities or relations
alongside the text, making it possible to link entities or extract relations in
a single forward pass and to fully leverage pre-trained language models
contextualization capabilities, in contrast with previous
Retriever-Reader-based methods, which require a forward pass for each
candidate. Our formulation of EL and RE achieves state-of-the-art performance
in both in-domain and out-of-domain benchmarks while using academic budget
training and with up to 40x inference speed compared to competitors. Finally,
we show how our architecture can be used seamlessly for Information Extraction
(cIE), i.e. EL + RE, and setting a new state of the art by employing a shared
Reader that simultaneously extracts entities and relations.Summary
AI-Generated Summary