MMM: 다국어 상호 강화 효과 혼합 데이터셋 및 오픈 도메인 정보 추출 대형 언어 모델 테스트
MMM: Multilingual Mutual Reinforcement Effect Mix Datasets & Test with Open-domain Information Extraction Large Language Models
July 15, 2024
저자: Chengguang Gan, Qingyu Yin, Xinyang He, Hanjun Wei, Yunhao Liang, Younghun Lim, Shijian Wang, Hexiang Huang, Qinghao Zhang, Shiwen Ni, Tatsunori Mori
cs.AI
초록
상호 강화 효과(Mutual Reinforcement Effect, MRE)는 정보 추출 및 멀티태스킹 연구 분야에서 유망한 방향성을 제시합니다. 그러나 MRE 혼합 데이터셋이 일본어로만 제공되어 왔기 때문에 전 세계 연구 커뮤니티의 포괄적인 탐구가 제한되어 왔습니다. 이러한 한계를 해결하기 위해, 우리는 영어, 일본어, 중국어로 구성된 21개의 하위 데이터셋을 포함한 다국어 MRE 혼합 데이터셋(Multilingual MRE mix dataset, MMM)을 소개합니다. 본 논문에서는 또한 대형 언어 모델(Large Language Models, LLMs)을 활용한 데이터셋 번역 방법을 제안하며, 이를 통해 원본 일본어 데이터셋의 번역에 필요한 수동 주석 시간을 크게 단축했습니다. 더불어, 우리는 개방형 도메인 개체명 인식(Named Entity Recognition, NER) 및 문장 분류 작업을 추가하여 데이터셋을 풍부하게 확장했습니다. 이 확장된 데이터셋을 활용하여, 우리는 개방형 정보 추출 대형 언어 모델(Open-domain Information Extraction Large Language Model, OIELLM)을 훈련하기 위한 통합 입력-출력 프레임워크를 개발했습니다. OIELLM 모델은 새로운 MMM 데이터셋을 효과적으로 처리할 수 있는 능력을 보여주며, 성능 면에서 상당한 개선을 달성했습니다.
English
The Mutual Reinforcement Effect (MRE) represents a promising avenue in
information extraction and multitasking research. Nevertheless, its
applicability has been constrained due to the exclusive availability of MRE mix
datasets in Japanese, thereby limiting comprehensive exploration by the global
research community. To address this limitation, we introduce a Multilingual MRE
mix dataset (MMM) that encompasses 21 sub-datasets in English, Japanese, and
Chinese. In this paper, we also propose a method for dataset translation
assisted by Large Language Models (LLMs), which significantly reduces the
manual annotation time required for dataset construction by leveraging LLMs to
translate the original Japanese datasets. Additionally, we have enriched the
dataset by incorporating open-domain Named Entity Recognition (NER) and
sentence classification tasks. Utilizing this expanded dataset, we developed a
unified input-output framework to train an Open-domain Information Extraction
Large Language Model (OIELLM). The OIELLM model demonstrates the capability to
effectively process novel MMM datasets, exhibiting significant improvements in
performance.Summary
AI-Generated Summary