mLongT5: Een meertalige en efficiënte tekst-naar-tekst transformer voor langere sequenties
mLongT5: A Multilingual and Efficient Text-To-Text Transformer for Longer Sequences
May 18, 2023
Auteurs: David Uthus, Santiago Ontañón, Joshua Ainslie, Mandy Guo
cs.AI
Samenvatting
We presenteren ons werk aan de ontwikkeling van een meertalige, efficiënte text-to-text transformer die geschikt is voor het verwerken van lange invoer. Dit model, genaamd mLongT5, bouwt voort op de architectuur van LongT5, terwijl het gebruikmaakt van de meertalige datasets die zijn gebruikt voor het vooraf trainen van mT5 en de voorafgaande trainings taken van UL2. We evalueren dit model op een verscheidenheid aan meertalige samenvattings- en vraag-antwoordtaken, en de resultaten tonen een sterkere prestatie van mLongT5 in vergelijking met bestaande meertalige modellen zoals mBART of M-BERT.
English
We present our work on developing a multilingual, efficient text-to-text
transformer that is suitable for handling long inputs. This model, called
mLongT5, builds upon the architecture of LongT5, while leveraging the
multilingual datasets used for pretraining mT5 and the pretraining tasks of
UL2. We evaluate this model on a variety of multilingual summarization and
question-answering tasks, and the results show stronger performance for mLongT5
when compared to existing multilingual models such as mBART or M-BERT.