ReLiK: 学術的予算内での高速かつ正確なエンティティリンキングと関係抽出
ReLiK: Retrieve and LinK, Fast and Accurate Entity Linking and Relation Extraction on an Academic Budget
July 31, 2024
著者: Riccardo Orlando, Pere-Lluis Huguet-Cabot, Edoardo Barba, Roberto Navigli
cs.AI
要旨
エンティティリンキング(EL)と関係抽出(RE)は、自然言語処理における基本的なタスクであり、幅広いアプリケーションにおいて重要な構成要素として機能しています。本論文では、ELとREの両方に対応するRetriever-ReaderアーキテクチャであるReLiKを提案します。このアーキテクチャでは、入力テキストが与えられると、Retrieverモジュールがテキスト内に現れる可能性のある候補エンティティや関係の特定を行います。その後、Readerモジュールが、取得された関連するエンティティや関係を識別し、それらを対応するテキストスパンと整合させる役割を担います。特に、候補エンティティや関係をテキストと共に組み込んだ革新的な入力表現を提案し、エンティティのリンキングや関係の抽出を単一のフォワードパスで行うことを可能にし、事前学習済み言語モデルの文脈化能力を最大限に活用します。これは、各候補に対してフォワードパスを必要とする従来のRetriever-Readerベースの手法とは対照的です。私たちのELとREの定式化は、学術的な予算でのトレーニングを行いながら、ドメイン内およびドメイン外のベンチマークで最先端の性能を達成し、競合他社と比較して最大40倍の推論速度を実現しています。最後に、このアーキテクチャが情報抽出(cIE)、すなわちELとREの組み合わせにシームレスに使用できることを示し、エンティティと関係を同時に抽出する共有Readerを採用することで、新たな最先端の性能を確立します。
English
Entity Linking (EL) and Relation Extraction (RE) are fundamental tasks in
Natural Language Processing, serving as critical components in a wide range of
applications. In this paper, we propose ReLiK, a Retriever-Reader architecture
for both EL and RE, where, given an input text, the Retriever module undertakes
the identification of candidate entities or relations that could potentially
appear within the text. Subsequently, the Reader module is tasked to discern
the pertinent retrieved entities or relations and establish their alignment
with the corresponding textual spans. Notably, we put forward an innovative
input representation that incorporates the candidate entities or relations
alongside the text, making it possible to link entities or extract relations in
a single forward pass and to fully leverage pre-trained language models
contextualization capabilities, in contrast with previous
Retriever-Reader-based methods, which require a forward pass for each
candidate. Our formulation of EL and RE achieves state-of-the-art performance
in both in-domain and out-of-domain benchmarks while using academic budget
training and with up to 40x inference speed compared to competitors. Finally,
we show how our architecture can be used seamlessly for Information Extraction
(cIE), i.e. EL + RE, and setting a new state of the art by employing a shared
Reader that simultaneously extracts entities and relations.Summary
AI-Generated Summary