ReLiK: Retrieve en Link, Snelle en Nauwkeurige Entiteitskoppeling en Relatie-extractie met een Academisch Budget
ReLiK: Retrieve and LinK, Fast and Accurate Entity Linking and Relation Extraction on an Academic Budget
July 31, 2024
Auteurs: Riccardo Orlando, Pere-Lluis Huguet-Cabot, Edoardo Barba, Roberto Navigli
cs.AI
Samenvatting
Entiteitenkoppeling (EL) en Relatie-extractie (RE) zijn fundamentele taken binnen
Natuurlijke Taalverwerking en vormen kritieke componenten in een breed scala aan
toepassingen. In dit artikel introduceren we ReLiK, een Retriever-Reader-architectuur
voor zowel EL als RE, waarbij, gegeven een invoertekst, de Retriever-module de
identificatie van kandidaat-entiteiten of -relaties die mogelijk in de tekst voorkomen,
op zich neemt. Vervolgens is het de taak van de Reader-module om de relevante
opgehaalde entiteiten of relaties te onderscheiden en hun afstemming met de
bijbehorende tekstuele segmenten vast te stellen. Opmerkelijk is dat we een innovatieve
invoerrepresentatie voorstellen die de kandidaat-entiteiten of -relaties samen met de
tekst integreert, waardoor het mogelijk wordt om entiteiten te koppelen of relaties te
extraheren in een enkele voorwaartse doorloop en om de contextualisatiemogelijkheden
van vooraf getrainde taalmodellen volledig te benutten, in tegenstelling tot eerdere
Retriever-Reader-gebaseerde methoden, die een voorwaartse doorloop voor elke
kandidaat vereisen. Onze formulering van EL en RE behaalt state-of-the-art prestaties
in zowel in-domein als out-of-domein benchmarks, terwijl gebruik wordt gemaakt van
een academisch budget voor training en met een inferentiesnelheid die tot 40x hoger
ligt dan die van concurrenten. Tot slot laten we zien hoe onze architectuur naadloos
kan worden gebruikt voor Informatie-extractie (cIE), d.w.z. EL + RE, en een nieuwe
state of the art vestigt door een gedeelde Reader in te zetten die gelijktijdig entiteiten
en relaties extraheert.
English
Entity Linking (EL) and Relation Extraction (RE) are fundamental tasks in
Natural Language Processing, serving as critical components in a wide range of
applications. In this paper, we propose ReLiK, a Retriever-Reader architecture
for both EL and RE, where, given an input text, the Retriever module undertakes
the identification of candidate entities or relations that could potentially
appear within the text. Subsequently, the Reader module is tasked to discern
the pertinent retrieved entities or relations and establish their alignment
with the corresponding textual spans. Notably, we put forward an innovative
input representation that incorporates the candidate entities or relations
alongside the text, making it possible to link entities or extract relations in
a single forward pass and to fully leverage pre-trained language models
contextualization capabilities, in contrast with previous
Retriever-Reader-based methods, which require a forward pass for each
candidate. Our formulation of EL and RE achieves state-of-the-art performance
in both in-domain and out-of-domain benchmarks while using academic budget
training and with up to 40x inference speed compared to competitors. Finally,
we show how our architecture can be used seamlessly for Information Extraction
(cIE), i.e. EL + RE, and setting a new state of the art by employing a shared
Reader that simultaneously extracts entities and relations.