ChatPaper.aiChatPaper

MMM: Efeito de Reforço Mútuo Multilíngue Misturar Conjuntos de Dados e Testar com Modelos de Linguagem de Grande Escala para Extração de Informações de Domínio Aberto

MMM: Multilingual Mutual Reinforcement Effect Mix Datasets & Test with Open-domain Information Extraction Large Language Models

July 15, 2024
Autores: Chengguang Gan, Qingyu Yin, Xinyang He, Hanjun Wei, Yunhao Liang, Younghun Lim, Shijian Wang, Hexiang Huang, Qinghao Zhang, Shiwen Ni, Tatsunori Mori
cs.AI

Resumo

O Efeito de Reforço Mútuo (ERM) representa uma via promissora na pesquisa de extração de informações e multitarefa. No entanto, sua aplicabilidade tem sido limitada devido à disponibilidade exclusiva de conjuntos de dados mistos de ERM em japonês, restringindo assim a exploração abrangente pela comunidade de pesquisa global. Para lidar com essa limitação, apresentamos um conjunto de dados mistos de ERM multilíngue (MMM) que engloba 21 subconjuntos em inglês, japonês e chinês. Neste artigo, também propomos um método para tradução de conjuntos de dados auxiliado por Modelos de Linguagem Grandes (MLGs), o que reduz significativamente o tempo de anotação manual necessário para a construção do conjunto de dados, aproveitando os MLGs para traduzir os conjuntos de dados originais em japonês. Além disso, enriquecemos o conjunto de dados incorporando tarefas de Reconhecimento de Entidades Nomeadas (REN) em domínio aberto e classificação de frases. Utilizando este conjunto de dados expandido, desenvolvemos um framework de entrada-saída unificado para treinar um Modelo de Linguagem Grande de Extração de Informações em Domínio Aberto (MLGEID). O modelo MLGEID demonstra a capacidade de processar efetivamente novos conjuntos de dados MMM, apresentando melhorias significativas no desempenho.
English
The Mutual Reinforcement Effect (MRE) represents a promising avenue in information extraction and multitasking research. Nevertheless, its applicability has been constrained due to the exclusive availability of MRE mix datasets in Japanese, thereby limiting comprehensive exploration by the global research community. To address this limitation, we introduce a Multilingual MRE mix dataset (MMM) that encompasses 21 sub-datasets in English, Japanese, and Chinese. In this paper, we also propose a method for dataset translation assisted by Large Language Models (LLMs), which significantly reduces the manual annotation time required for dataset construction by leveraging LLMs to translate the original Japanese datasets. Additionally, we have enriched the dataset by incorporating open-domain Named Entity Recognition (NER) and sentence classification tasks. Utilizing this expanded dataset, we developed a unified input-output framework to train an Open-domain Information Extraction Large Language Model (OIELLM). The OIELLM model demonstrates the capability to effectively process novel MMM datasets, exhibiting significant improvements in performance.
PDF52November 28, 2024