ChatPaper.aiChatPaper

mLongT5: Um Transformador Texto-para-Texto Multilíngue e Eficiente para Sequências Mais Longas

mLongT5: A Multilingual and Efficient Text-To-Text Transformer for Longer Sequences

May 18, 2023
Autores: David Uthus, Santiago Ontañón, Joshua Ainslie, Mandy Guo
cs.AI

Resumo

Apresentamos nosso trabalho no desenvolvimento de um transformador texto-para-texto multilíngue e eficiente, adequado para o processamento de entradas longas. Esse modelo, denominado mLongT5, é baseado na arquitetura do LongT5, ao mesmo tempo que aproveita os conjuntos de dados multilíngues utilizados para o pré-treinamento do mT5 e as tarefas de pré-treinamento do UL2. Avaliamos esse modelo em uma variedade de tarefas de sumarização e resposta a perguntas multilíngues, e os resultados mostram um desempenho superior do mLongT5 quando comparado a modelos multilíngues existentes, como mBART ou M-BERT.
English
We present our work on developing a multilingual, efficient text-to-text transformer that is suitable for handling long inputs. This model, called mLongT5, builds upon the architecture of LongT5, while leveraging the multilingual datasets used for pretraining mT5 and the pretraining tasks of UL2. We evaluate this model on a variety of multilingual summarization and question-answering tasks, and the results show stronger performance for mLongT5 when compared to existing multilingual models such as mBART or M-BERT.
PDF21April 26, 2026