ChatPaper.aiChatPaper

MMM : Effet de Renforcement Mutuel Multilingue - Mélange de Jeux de Données et Test avec des Modèles de Langage à Grande Échelle pour l'Extraction d'Informations en Domaine Ouvert

MMM: Multilingual Mutual Reinforcement Effect Mix Datasets & Test with Open-domain Information Extraction Large Language Models

July 15, 2024
Auteurs: Chengguang Gan, Qingyu Yin, Xinyang He, Hanjun Wei, Yunhao Liang, Younghun Lim, Shijian Wang, Hexiang Huang, Qinghao Zhang, Shiwen Ni, Tatsunori Mori
cs.AI

Résumé

L'effet de renforcement mutuel (Mutual Reinforcement Effect, MRE) représente une voie prometteuse dans la recherche sur l'extraction d'informations et le multitâche. Cependant, son applicabilité a été limitée en raison de la disponibilité exclusive de jeux de données MRE mix en japonais, restreignant ainsi une exploration approfondie par la communauté de recherche mondiale. Pour remédier à cette limitation, nous introduisons un jeu de données MRE multilingue (Multilingual MRE mix, MMM) qui englobe 21 sous-ensembles de données en anglais, japonais et chinois. Dans cet article, nous proposons également une méthode de traduction de jeux de données assistée par des modèles de langage de grande taille (Large Language Models, LLMs), qui réduit considérablement le temps d'annotation manuelle nécessaire à la construction des jeux de données en exploitant les LLMs pour traduire les jeux de données japonais originaux. De plus, nous avons enrichi le jeu de données en y intégrant des tâches de reconnaissance d'entités nommées (Named Entity Recognition, NER) en domaine ouvert et de classification de phrases. En utilisant ce jeu de données élargi, nous avons développé un cadre d'entrée-sortie unifié pour entraîner un modèle de langage de grande taille dédié à l'extraction d'informations en domaine ouvert (Open-domain Information Extraction Large Language Model, OIELLM). Le modèle OIELLM démontre sa capacité à traiter efficacement les nouveaux jeux de données MMM, affichant des améliorations significatives en termes de performance.
English
The Mutual Reinforcement Effect (MRE) represents a promising avenue in information extraction and multitasking research. Nevertheless, its applicability has been constrained due to the exclusive availability of MRE mix datasets in Japanese, thereby limiting comprehensive exploration by the global research community. To address this limitation, we introduce a Multilingual MRE mix dataset (MMM) that encompasses 21 sub-datasets in English, Japanese, and Chinese. In this paper, we also propose a method for dataset translation assisted by Large Language Models (LLMs), which significantly reduces the manual annotation time required for dataset construction by leveraging LLMs to translate the original Japanese datasets. Additionally, we have enriched the dataset by incorporating open-domain Named Entity Recognition (NER) and sentence classification tasks. Utilizing this expanded dataset, we developed a unified input-output framework to train an Open-domain Information Extraction Large Language Model (OIELLM). The OIELLM model demonstrates the capability to effectively process novel MMM datasets, exhibiting significant improvements in performance.

Summary

AI-Generated Summary

PDF52November 28, 2024