ReLiK : Récupérer et Lier, Liaison d'Entités et Extraction de Relations Rapides et Précises avec un Budget Académique
ReLiK: Retrieve and LinK, Fast and Accurate Entity Linking and Relation Extraction on an Academic Budget
July 31, 2024
Auteurs: Riccardo Orlando, Pere-Lluis Huguet-Cabot, Edoardo Barba, Roberto Navigli
cs.AI
Résumé
La liaison d'entités (Entity Linking, EL) et l'extraction de relations (Relation Extraction, RE) sont des tâches fondamentales en traitement du langage naturel, jouant un rôle crucial dans une multitude d'applications. Dans cet article, nous proposons ReLiK, une architecture de type Retriever-Reader pour à la fois l'EL et la RE, où, étant donné un texte en entrée, le module Retriever s'occupe d'identifier les entités ou relations candidates susceptibles d'apparaître dans le texte. Par la suite, le module Reader a pour mission de déterminer les entités ou relations pertinentes parmi celles récupérées et d'établir leur alignement avec les segments textuels correspondants. Nous introduisons notamment une représentation d'entrée innovante qui intègre les entités ou relations candidates avec le texte, permettant de lier des entités ou d'extraire des relations en une seule passe avant et de tirer pleinement parti des capacités de contextualisation des modèles de langage pré-entraînés, contrairement aux méthodes précédentes basées sur Retriever-Reader, qui nécessitent une passe avant pour chaque candidat. Notre formulation de l'EL et de la RE atteint des performances de pointe à la fois sur des benchmarks en domaine et hors domaine, tout en utilisant un budget d'entraînement académique et avec une vitesse d'inférence jusqu'à 40 fois supérieure à celle des concurrents. Enfin, nous montrons comment notre architecture peut être utilisée de manière transparente pour l'extraction d'information combinée (cIE), c'est-à-dire EL + RE, et établir un nouvel état de l'art en employant un Reader partagé qui extrait simultanément les entités et les relations.
English
Entity Linking (EL) and Relation Extraction (RE) are fundamental tasks in
Natural Language Processing, serving as critical components in a wide range of
applications. In this paper, we propose ReLiK, a Retriever-Reader architecture
for both EL and RE, where, given an input text, the Retriever module undertakes
the identification of candidate entities or relations that could potentially
appear within the text. Subsequently, the Reader module is tasked to discern
the pertinent retrieved entities or relations and establish their alignment
with the corresponding textual spans. Notably, we put forward an innovative
input representation that incorporates the candidate entities or relations
alongside the text, making it possible to link entities or extract relations in
a single forward pass and to fully leverage pre-trained language models
contextualization capabilities, in contrast with previous
Retriever-Reader-based methods, which require a forward pass for each
candidate. Our formulation of EL and RE achieves state-of-the-art performance
in both in-domain and out-of-domain benchmarks while using academic budget
training and with up to 40x inference speed compared to competitors. Finally,
we show how our architecture can be used seamlessly for Information Extraction
(cIE), i.e. EL + RE, and setting a new state of the art by employing a shared
Reader that simultaneously extracts entities and relations.Summary
AI-Generated Summary