ChatPaper.aiChatPaper

mLongT5: Многоязычный и эффективный трансформер для преобразования текста в текст с поддержкой длинных последовательностей

mLongT5: A Multilingual and Efficient Text-To-Text Transformer for Longer Sequences

May 18, 2023
Авторы: David Uthus, Santiago Ontañón, Joshua Ainslie, Mandy Guo
cs.AI

Аннотация

Мы представляем нашу работу по разработке многоязычного, эффективного текстового трансформера, подходящего для обработки длинных входных данных. Эта модель, названная mLongT5, основана на архитектуре LongT5, используя многоязычные наборы данных, применяемые для предварительного обучения mT5, а также задачи предварительного обучения UL2. Мы оцениваем эту модель на различных задачах многоязычного суммаризации и ответов на вопросы, и результаты демонстрируют более высокую производительность mLongT5 по сравнению с существующими многоязычными моделями, такими как mBART или M-BERT.
English
We present our work on developing a multilingual, efficient text-to-text transformer that is suitable for handling long inputs. This model, called mLongT5, builds upon the architecture of LongT5, while leveraging the multilingual datasets used for pretraining mT5 and the pretraining tasks of UL2. We evaluate this model on a variety of multilingual summarization and question-answering tasks, and the results show stronger performance for mLongT5 when compared to existing multilingual models such as mBART or M-BERT.
PDF21December 15, 2024