ChatPaper.aiChatPaper

mLongT5: Un Trasformatore Testo-a-Testo Multilingue ed Efficiente per Sequenze più Lunghe

mLongT5: A Multilingual and Efficient Text-To-Text Transformer for Longer Sequences

May 18, 2023
Autori: David Uthus, Santiago Ontañón, Joshua Ainslie, Mandy Guo
cs.AI

Abstract

Presentiamo il nostro lavoro sullo sviluppo di un trasformatore testo-testo multilingue ed efficiente, adatto a gestire input di grandi dimensioni. Questo modello, denominato mLongT5, si basa sull'architettura di LongT5, sfruttando i dataset multilingue utilizzati per il pretraining di mT5 e le attività di pretraining di UL2. Valutiamo questo modello su una varietà di attività di riassunto multilingue e di risposta alle domande, e i risultati mostrano prestazioni superiori per mLongT5 rispetto a modelli multilingue esistenti come mBART o M-BERT.
English
We present our work on developing a multilingual, efficient text-to-text transformer that is suitable for handling long inputs. This model, called mLongT5, builds upon the architecture of LongT5, while leveraging the multilingual datasets used for pretraining mT5 and the pretraining tasks of UL2. We evaluate this model on a variety of multilingual summarization and question-answering tasks, and the results show stronger performance for mLongT5 when compared to existing multilingual models such as mBART or M-BERT.
PDF21April 26, 2026