MMM: Effetto di Rinforzo Reciproco Multilingue - Miscelazione di Dataset e Test con Modelli Linguistici di Grande Scala per l'Estrazione di Informazioni in Dominio Aperto
MMM: Multilingual Mutual Reinforcement Effect Mix Datasets & Test with Open-domain Information Extraction Large Language Models
July 15, 2024
Autori: Chengguang Gan, Qingyu Yin, Xinyang He, Hanjun Wei, Yunhao Liang, Younghun Lim, Shijian Wang, Hexiang Huang, Qinghao Zhang, Shiwen Ni, Tatsunori Mori
cs.AI
Abstract
L'Effetto di Rafforzamento Reciproco (MRE) rappresenta una prospettiva promettente nella ricerca sull'estrazione di informazioni e sul multitasking. Tuttavia, la sua applicabilità è stata limitata dalla disponibilità esclusiva di dataset MRE mix in giapponese, restringendo così l'esplorazione approfondita da parte della comunità di ricerca globale. Per affrontare questa limitazione, introduciamo un dataset Multilingue MRE mix (MMM) che comprende 21 sotto-dataset in inglese, giapponese e cinese. In questo articolo, proponiamo inoltre un metodo per la traduzione dei dataset assistita da Modelli Linguistici di Grande Scala (LLMs), che riduce significativamente il tempo di annotazione manuale richiesto per la costruzione dei dataset sfruttando gli LLMs per tradurre i dataset originali in giapponese. Inoltre, abbiamo arricchito il dataset incorporando attività di Riconoscimento di Entità Nominate (NER) a dominio aperto e di classificazione delle frasi. Utilizzando questo dataset ampliato, abbiamo sviluppato un framework unificato di input-output per addestrare un Modello Linguistico di Grande Scala per l'Estrazione di Informazioni a Dominio Aperto (OIELLM). Il modello OIELLM dimostra la capacità di elaborare efficacemente i nuovi dataset MMM, mostrando miglioramenti significativi nelle prestazioni.
English
The Mutual Reinforcement Effect (MRE) represents a promising avenue in
information extraction and multitasking research. Nevertheless, its
applicability has been constrained due to the exclusive availability of MRE mix
datasets in Japanese, thereby limiting comprehensive exploration by the global
research community. To address this limitation, we introduce a Multilingual MRE
mix dataset (MMM) that encompasses 21 sub-datasets in English, Japanese, and
Chinese. In this paper, we also propose a method for dataset translation
assisted by Large Language Models (LLMs), which significantly reduces the
manual annotation time required for dataset construction by leveraging LLMs to
translate the original Japanese datasets. Additionally, we have enriched the
dataset by incorporating open-domain Named Entity Recognition (NER) and
sentence classification tasks. Utilizing this expanded dataset, we developed a
unified input-output framework to train an Open-domain Information Extraction
Large Language Model (OIELLM). The OIELLM model demonstrates the capability to
effectively process novel MMM datasets, exhibiting significant improvements in
performance.