ChatPaper.aiChatPaper

mLongT5 : Un transformeur texte-à-texte multilingue et efficace pour les séquences longues

mLongT5: A Multilingual and Efficient Text-To-Text Transformer for Longer Sequences

May 18, 2023
Auteurs: David Uthus, Santiago Ontañón, Joshua Ainslie, Mandy Guo
cs.AI

Résumé

Nous présentons notre travail sur le développement d'un transformeur texte-à-texte multilingue et efficace, adapté à la gestion de longues entrées. Ce modèle, appelé mLongT5, s'appuie sur l'architecture de LongT5 tout en exploitant les ensembles de données multilingues utilisés pour le pré-entraînement de mT5 ainsi que les tâches de pré-entraînement d'UL2. Nous évaluons ce modèle sur une variété de tâches de résumé multilingue et de question-réponse, et les résultats montrent une performance supérieure de mLongT5 par rapport aux modèles multilingues existants tels que mBART ou M-BERT.
English
We present our work on developing a multilingual, efficient text-to-text transformer that is suitable for handling long inputs. This model, called mLongT5, builds upon the architecture of LongT5, while leveraging the multilingual datasets used for pretraining mT5 and the pretraining tasks of UL2. We evaluate this model on a variety of multilingual summarization and question-answering tasks, and the results show stronger performance for mLongT5 when compared to existing multilingual models such as mBART or M-BERT.
PDF21December 15, 2024