ChatPaper.aiChatPaper

MMM: Multilinguale gegenseitige Verstärkungseffekt-Mischen von Datensätzen & Test mit Großsprachigen Modellen für die Extraktion von Informationen im Open Domain

MMM: Multilingual Mutual Reinforcement Effect Mix Datasets & Test with Open-domain Information Extraction Large Language Models

July 15, 2024
Autoren: Chengguang Gan, Qingyu Yin, Xinyang He, Hanjun Wei, Yunhao Liang, Younghun Lim, Shijian Wang, Hexiang Huang, Qinghao Zhang, Shiwen Ni, Tatsunori Mori
cs.AI

Zusammenfassung

Der Mutual Reinforcement Effect (MRE) stellt einen vielversprechenden Ansatz in der Informationsgewinnung und Multitasking-Forschung dar. Dennoch wurde seine Anwendbarkeit aufgrund der ausschließlichen Verfügbarkeit von MRE-Mix-Datensätzen in Japanisch eingeschränkt, was eine umfassende Erforschung durch die globale Forschungsgemeinschaft begrenzt hat. Um diese Einschränkung zu überwinden, führen wir einen Multilingualen MRE-Mix-Datensatz (MMM) ein, der 21 Teildatensätze in Englisch, Japanisch und Chinesisch umfasst. In diesem Paper schlagen wir auch eine Methode zur Datensatzübersetzung vor, die durch Large Language Models (LLMs) unterstützt wird, was die manuelle Annotierungszeit für den Datensatzaufbau erheblich reduziert, indem LLMs genutzt werden, um die originalen japanischen Datensätze zu übersetzen. Darüber hinaus haben wir den Datensatz durch die Integration von Named Entity Recognition (NER) und Satzklassifikationsaufgaben im Open-Domain-Bereich erweitert. Unter Verwendung dieses erweiterten Datensatzes haben wir ein einheitliches Eingabe-Ausgabe-Framework entwickelt, um ein Open-Domain-Informationsgewinnungs-Large-Language-Model (OIELLM) zu trainieren. Das OIELLM-Modell zeigt die Fähigkeit, neuartige MMM-Datensätze effektiv zu verarbeiten und zeigt signifikante Verbesserungen in der Leistung.
English
The Mutual Reinforcement Effect (MRE) represents a promising avenue in information extraction and multitasking research. Nevertheless, its applicability has been constrained due to the exclusive availability of MRE mix datasets in Japanese, thereby limiting comprehensive exploration by the global research community. To address this limitation, we introduce a Multilingual MRE mix dataset (MMM) that encompasses 21 sub-datasets in English, Japanese, and Chinese. In this paper, we also propose a method for dataset translation assisted by Large Language Models (LLMs), which significantly reduces the manual annotation time required for dataset construction by leveraging LLMs to translate the original Japanese datasets. Additionally, we have enriched the dataset by incorporating open-domain Named Entity Recognition (NER) and sentence classification tasks. Utilizing this expanded dataset, we developed a unified input-output framework to train an Open-domain Information Extraction Large Language Model (OIELLM). The OIELLM model demonstrates the capability to effectively process novel MMM datasets, exhibiting significant improvements in performance.

Summary

AI-Generated Summary

PDF52November 28, 2024