mLongT5: Um Transformador Texto-para-Texto Multilíngue e Eficiente para Sequências Mais Longas
mLongT5: A Multilingual and Efficient Text-To-Text Transformer for Longer Sequences
May 18, 2023
Autores: David Uthus, Santiago Ontañón, Joshua Ainslie, Mandy Guo
cs.AI
Resumo
Apresentamos nosso trabalho no desenvolvimento de um transformador texto-para-texto multilíngue e eficiente, adequado para o processamento de entradas longas. Esse modelo, denominado mLongT5, é baseado na arquitetura do LongT5, ao mesmo tempo que aproveita os conjuntos de dados multilíngues utilizados para o pré-treinamento do mT5 e as tarefas de pré-treinamento do UL2. Avaliamos esse modelo em uma variedade de tarefas de sumarização e resposta a perguntas multilíngues, e os resultados mostram um desempenho superior do mLongT5 quando comparado a modelos multilíngues existentes, como mBART ou M-BERT.
English
We present our work on developing a multilingual, efficient text-to-text
transformer that is suitable for handling long inputs. This model, called
mLongT5, builds upon the architecture of LongT5, while leveraging the
multilingual datasets used for pretraining mT5 and the pretraining tasks of
UL2. We evaluate this model on a variety of multilingual summarization and
question-answering tasks, and the results show stronger performance for mLongT5
when compared to existing multilingual models such as mBART or M-BERT.