ChatPaper.aiChatPaper

mLongT5: 長いシーケンスに対応する多言語かつ効率的なテキスト間変換Transformer

mLongT5: A Multilingual and Efficient Text-To-Text Transformer for Longer Sequences

May 18, 2023
著者: David Uthus, Santiago Ontañón, Joshua Ainslie, Mandy Guo
cs.AI

要旨

我々は、長い入力の処理に適した多言語対応かつ効率的なテキスト間変換モデルの開発について報告する。このモデルはmLongT5と名付けられ、LongT5のアーキテクチャを基盤としつつ、mT5の事前学習に用いられた多言語データセットとUL2の事前学習タスクを活用している。本モデルを多言語要約や質問応答タスクの多様なデータセットで評価した結果、mLongT5はmBARTやM-BERTといった既存の多言語モデルと比較して優れた性能を示すことが確認された。
English
We present our work on developing a multilingual, efficient text-to-text transformer that is suitable for handling long inputs. This model, called mLongT5, builds upon the architecture of LongT5, while leveraging the multilingual datasets used for pretraining mT5 and the pretraining tasks of UL2. We evaluate this model on a variety of multilingual summarization and question-answering tasks, and the results show stronger performance for mLongT5 when compared to existing multilingual models such as mBART or M-BERT.
PDF21December 15, 2024