mLongT5 : Un transformeur texte-à-texte multilingue et efficace pour les séquences longues
mLongT5: A Multilingual and Efficient Text-To-Text Transformer for Longer Sequences
May 18, 2023
Auteurs: David Uthus, Santiago Ontañón, Joshua Ainslie, Mandy Guo
cs.AI
Résumé
Nous présentons notre travail sur le développement d'un transformeur texte-à-texte multilingue et efficace, adapté à la gestion de longues entrées. Ce modèle, appelé mLongT5, s'appuie sur l'architecture de LongT5 tout en exploitant les ensembles de données multilingues utilisés pour le pré-entraînement de mT5 ainsi que les tâches de pré-entraînement d'UL2. Nous évaluons ce modèle sur une variété de tâches de résumé multilingue et de question-réponse, et les résultats montrent une performance supérieure de mLongT5 par rapport aux modèles multilingues existants tels que mBART ou M-BERT.
English
We present our work on developing a multilingual, efficient text-to-text
transformer that is suitable for handling long inputs. This model, called
mLongT5, builds upon the architecture of LongT5, while leveraging the
multilingual datasets used for pretraining mT5 and the pretraining tasks of
UL2. We evaluate this model on a variety of multilingual summarization and
question-answering tasks, and the results show stronger performance for mLongT5
when compared to existing multilingual models such as mBART or M-BERT.