mLongT5: Un Transformador Texto-a-Texto Multilingüe y Eficiente para Secuencias Más Largas
mLongT5: A Multilingual and Efficient Text-To-Text Transformer for Longer Sequences
May 18, 2023
Autores: David Uthus, Santiago Ontañón, Joshua Ainslie, Mandy Guo
cs.AI
Resumen
Presentamos nuestro trabajo sobre el desarrollo de un transformador de texto a texto multilingüe y eficiente, adecuado para manejar entradas largas. Este modelo, denominado mLongT5, se basa en la arquitectura de LongT5, aprovechando los conjuntos de datos multilingües utilizados para el preentrenamiento de mT5 y las tareas de preentrenamiento de UL2. Evaluamos este modelo en una variedad de tareas multilingües de resumen y respuesta a preguntas, y los resultados muestran un rendimiento superior de mLongT5 en comparación con modelos multilingües existentes como mBART o M-BERT.
English
We present our work on developing a multilingual, efficient text-to-text
transformer that is suitable for handling long inputs. This model, called
mLongT5, builds upon the architecture of LongT5, while leveraging the
multilingual datasets used for pretraining mT5 and the pretraining tasks of
UL2. We evaluate this model on a variety of multilingual summarization and
question-answering tasks, and the results show stronger performance for mLongT5
when compared to existing multilingual models such as mBART or M-BERT.