ChatPaper.aiChatPaper

MMM: Multilinguale Wederzijdse Versterkingseffect Mix Datasets & Testen met Open-domein Informatie-extractie Grote Taalmodellen

MMM: Multilingual Mutual Reinforcement Effect Mix Datasets & Test with Open-domain Information Extraction Large Language Models

July 15, 2024
Auteurs: Chengguang Gan, Qingyu Yin, Xinyang He, Hanjun Wei, Yunhao Liang, Younghun Lim, Shijian Wang, Hexiang Huang, Qinghao Zhang, Shiwen Ni, Tatsunori Mori
cs.AI

Samenvatting

Het Mutual Reinforcement Effect (MRE) vertegenwoordigt een veelbelovende richting in onderzoek naar informatie-extractie en multitasking. Desalniettemin is de toepasbaarheid ervan beperkt gebleven vanwege de exclusieve beschikbaarheid van MRE-mixdatasets in het Japans, wat een uitgebreide verkenning door de wereldwijde onderzoeksgemeenschap in de weg staat. Om deze beperking aan te pakken, introduceren we een Multilingual MRE-mixdataset (MMM) die 21 subdatasets omvat in het Engels, Japans en Chinees. In dit artikel stellen we ook een methode voor voor datasetvertaling ondersteund door Large Language Models (LLMs), die de benodigde tijd voor handmatige annotatie bij de constructie van datasets aanzienlijk vermindert door gebruik te maken van LLMs om de originele Japanse datasets te vertalen. Daarnaast hebben we de dataset verrijkt door open-domain Named Entity Recognition (NER) en zinsclassificatietaken toe te voegen. Met behulp van deze uitgebreide dataset hebben we een uniform input-output raamwerk ontwikkeld om een Open-domain Information Extraction Large Language Model (OIELLM) te trainen. Het OIELLM-model toont de mogelijkheid om nieuwe MMM-datasets effectief te verwerken, waarbij aanzienlijke verbeteringen in prestaties worden waargenomen.
English
The Mutual Reinforcement Effect (MRE) represents a promising avenue in information extraction and multitasking research. Nevertheless, its applicability has been constrained due to the exclusive availability of MRE mix datasets in Japanese, thereby limiting comprehensive exploration by the global research community. To address this limitation, we introduce a Multilingual MRE mix dataset (MMM) that encompasses 21 sub-datasets in English, Japanese, and Chinese. In this paper, we also propose a method for dataset translation assisted by Large Language Models (LLMs), which significantly reduces the manual annotation time required for dataset construction by leveraging LLMs to translate the original Japanese datasets. Additionally, we have enriched the dataset by incorporating open-domain Named Entity Recognition (NER) and sentence classification tasks. Utilizing this expanded dataset, we developed a unified input-output framework to train an Open-domain Information Extraction Large Language Model (OIELLM). The OIELLM model demonstrates the capability to effectively process novel MMM datasets, exhibiting significant improvements in performance.
PDF52February 8, 2026