ChatPaper.aiChatPaper

MMM: Efecto de Reforzamiento Mutuo Multilingüe Mezclar Conjuntos de Datos y Probar con Modelos de Lenguaje de Gran Escala para la Extracción de Información de Dominio Abierto.

MMM: Multilingual Mutual Reinforcement Effect Mix Datasets & Test with Open-domain Information Extraction Large Language Models

July 15, 2024
Autores: Chengguang Gan, Qingyu Yin, Xinyang He, Hanjun Wei, Yunhao Liang, Younghun Lim, Shijian Wang, Hexiang Huang, Qinghao Zhang, Shiwen Ni, Tatsunori Mori
cs.AI

Resumen

El Efecto de Refuerzo Mutuo (ERM) representa una vía prometedora en la investigación de extracción de información y multitarea. Sin embargo, su aplicabilidad se ha visto limitada debido a la disponibilidad exclusiva de conjuntos de datos mixtos de ERM en japonés, lo que restringe la exploración exhaustiva por parte de la comunidad de investigación global. Para abordar esta limitación, presentamos un conjunto de datos mixto de ERM multilingüe (MMM) que abarca 21 subconjuntos de datos en inglés, japonés y chino. En este artículo, también proponemos un método para la traducción de conjuntos de datos asistida por Modelos de Lenguaje Grandes (LLMs), que reduce significativamente el tiempo de anotación manual requerido para la construcción del conjunto de datos al aprovechar los LLMs para traducir los conjuntos de datos originales en japonés. Además, hemos enriquecido el conjunto de datos incorporando tareas de Reconocimiento de Entidades Nombradas (NER) de dominio abierto y clasificación de oraciones. Utilizando este conjunto de datos ampliado, desarrollamos un marco de entrada-salida unificado para entrenar un Modelo de Lenguaje Grande de Extracción de Información de Dominio Abierto (OIELLM). El modelo OIELLM demuestra la capacidad de procesar de manera efectiva los nuevos conjuntos de datos MMM, mostrando mejoras significativas en el rendimiento.
English
The Mutual Reinforcement Effect (MRE) represents a promising avenue in information extraction and multitasking research. Nevertheless, its applicability has been constrained due to the exclusive availability of MRE mix datasets in Japanese, thereby limiting comprehensive exploration by the global research community. To address this limitation, we introduce a Multilingual MRE mix dataset (MMM) that encompasses 21 sub-datasets in English, Japanese, and Chinese. In this paper, we also propose a method for dataset translation assisted by Large Language Models (LLMs), which significantly reduces the manual annotation time required for dataset construction by leveraging LLMs to translate the original Japanese datasets. Additionally, we have enriched the dataset by incorporating open-domain Named Entity Recognition (NER) and sentence classification tasks. Utilizing this expanded dataset, we developed a unified input-output framework to train an Open-domain Information Extraction Large Language Model (OIELLM). The OIELLM model demonstrates the capability to effectively process novel MMM datasets, exhibiting significant improvements in performance.
PDF52November 28, 2024