MMM:多言語相互強化効果を活用したデータセットの混合と、オープンドメイン情報抽出大規模言語モデルによるテスト
MMM: Multilingual Mutual Reinforcement Effect Mix Datasets & Test with Open-domain Information Extraction Large Language Models
July 15, 2024
著者: Chengguang Gan, Qingyu Yin, Xinyang He, Hanjun Wei, Yunhao Liang, Younghun Lim, Shijian Wang, Hexiang Huang, Qinghao Zhang, Shiwen Ni, Tatsunori Mori
cs.AI
要旨
相互強化効果(MRE)は、情報抽出とマルチタスク研究において有望なアプローチを示しています。しかし、MREミックスデータセットが日本語でのみ利用可能であるため、その適用範囲は制限されており、世界的な研究コミュニティによる包括的な探求が妨げられてきました。この制約を解消するため、我々は英語、日本語、中国語の21のサブデータセットを含む多言語MREミックスデータセット(MMM)を導入しました。本論文では、大規模言語モデル(LLMs)を活用したデータセット翻訳手法も提案しています。この手法により、元の日本語データセットの翻訳にLLMsを活用することで、データセット構築に必要な手動アノテーション時間を大幅に削減しています。さらに、オープンドメインの固有表現認識(NER)と文分類タスクを組み込むことで、データセットを充実させました。この拡張されたデータセットを活用し、オープンドメイン情報抽出大規模言語モデル(OIELLM)を訓練するための統一的な入出力フレームワークを開発しました。OIELLMモデルは、新たなMMMデータセットを効果的に処理する能力を示し、性能の大幅な向上を実証しています。
English
The Mutual Reinforcement Effect (MRE) represents a promising avenue in
information extraction and multitasking research. Nevertheless, its
applicability has been constrained due to the exclusive availability of MRE mix
datasets in Japanese, thereby limiting comprehensive exploration by the global
research community. To address this limitation, we introduce a Multilingual MRE
mix dataset (MMM) that encompasses 21 sub-datasets in English, Japanese, and
Chinese. In this paper, we also propose a method for dataset translation
assisted by Large Language Models (LLMs), which significantly reduces the
manual annotation time required for dataset construction by leveraging LLMs to
translate the original Japanese datasets. Additionally, we have enriched the
dataset by incorporating open-domain Named Entity Recognition (NER) and
sentence classification tasks. Utilizing this expanded dataset, we developed a
unified input-output framework to train an Open-domain Information Extraction
Large Language Model (OIELLM). The OIELLM model demonstrates the capability to
effectively process novel MMM datasets, exhibiting significant improvements in
performance.Summary
AI-Generated Summary