ChatPaper.aiChatPaper

MMM: Мультиязычный эффект взаимного усиления: смешивание наборов данных и тестирование с большими языковыми моделями для извлечения информации в открытой области.

MMM: Multilingual Mutual Reinforcement Effect Mix Datasets & Test with Open-domain Information Extraction Large Language Models

July 15, 2024
Авторы: Chengguang Gan, Qingyu Yin, Xinyang He, Hanjun Wei, Yunhao Liang, Younghun Lim, Shijian Wang, Hexiang Huang, Qinghao Zhang, Shiwen Ni, Tatsunori Mori
cs.AI

Аннотация

Эффект взаимного усиления (MRE) представляет собой многообещающее направление в исследованиях по извлечению информации и многозадачности. Тем не менее, его применимость ограничена из-за исключительной доступности наборов данных MRE mix на японском языке, что ограничивает полноценное исследование мировым научным сообществом. Для преодоления этого ограничения мы представляем мультиязычный набор данных MRE mix (MMM), который включает 21 суб-набор данных на английском, японском и китайском языках. В данной статье мы также предлагаем метод перевода набора данных с помощью больших языковых моделей (LLM), что значительно сокращает время ручной аннотации, необходимое для создания набора данных, используя LLM для перевода исходных японских наборов данных. Кроме того, мы обогатили набор данных, включив в него задачи распознавания именованных сущностей (NER) в открытой области и классификации предложений. Используя этот расширенный набор данных, мы разработали единый входно-выходной каркас для обучения большой языковой модели извлечения информации в открытой области (OIELLM). Модель OIELLM демонстрирует способность эффективно обрабатывать новые наборы данных MMM, проявляя значительное улучшение в производительности.
English
The Mutual Reinforcement Effect (MRE) represents a promising avenue in information extraction and multitasking research. Nevertheless, its applicability has been constrained due to the exclusive availability of MRE mix datasets in Japanese, thereby limiting comprehensive exploration by the global research community. To address this limitation, we introduce a Multilingual MRE mix dataset (MMM) that encompasses 21 sub-datasets in English, Japanese, and Chinese. In this paper, we also propose a method for dataset translation assisted by Large Language Models (LLMs), which significantly reduces the manual annotation time required for dataset construction by leveraging LLMs to translate the original Japanese datasets. Additionally, we have enriched the dataset by incorporating open-domain Named Entity Recognition (NER) and sentence classification tasks. Utilizing this expanded dataset, we developed a unified input-output framework to train an Open-domain Information Extraction Large Language Model (OIELLM). The OIELLM model demonstrates the capability to effectively process novel MMM datasets, exhibiting significant improvements in performance.

Summary

AI-Generated Summary

PDF52November 28, 2024