ChatPaper.aiChatPaper

mLongT5: Ein multilingualer und effizienter Text-zu-Text-Transformer für längere Sequenzen

mLongT5: A Multilingual and Efficient Text-To-Text Transformer for Longer Sequences

May 18, 2023
Autoren: David Uthus, Santiago Ontañón, Joshua Ainslie, Mandy Guo
cs.AI

Zusammenfassung

Wir präsentieren unsere Arbeit zur Entwicklung eines multilingualen, effizienten Text-zu-Text-Transformers, der für die Verarbeitung langer Eingaben geeignet ist. Dieses Modell, genannt mLongT5, baut auf der Architektur von LongT5 auf und nutzt dabei die multilingualen Datensätze, die für das Pretraining von mT5 verwendet wurden, sowie die Pretraining-Aufgaben von UL2. Wir evaluieren dieses Modell anhand einer Vielzahl von multilingualen Zusammenfassungs- und Frage-Antwort-Aufgaben, und die Ergebnisse zeigen eine stärkere Leistung von mLongT5 im Vergleich zu bestehenden multilingualen Modellen wie mBART oder M-BERT.
English
We present our work on developing a multilingual, efficient text-to-text transformer that is suitable for handling long inputs. This model, called mLongT5, builds upon the architecture of LongT5, while leveraging the multilingual datasets used for pretraining mT5 and the pretraining tasks of UL2. We evaluate this model on a variety of multilingual summarization and question-answering tasks, and the results show stronger performance for mLongT5 when compared to existing multilingual models such as mBART or M-BERT.
PDF21December 15, 2024