ChatPaper.aiChatPaper

mLongT5: 더 긴 시퀀스를 위한 다국어 및 효율적인 텍스트-투-텍스트 트랜스포머

mLongT5: A Multilingual and Efficient Text-To-Text Transformer for Longer Sequences

May 18, 2023
저자: David Uthus, Santiago Ontañón, Joshua Ainslie, Mandy Guo
cs.AI

초록

우리는 긴 입력을 처리하는 데 적합한 다국어적이며 효율적인 텍스트 간 변환기(transformer)를 개발한 연구를 소개한다. 이 모델은 mLongT5라고 명명되었으며, LongT5의 아키텍처를 기반으로 하면서도 mT5의 사전 학습에 사용된 다국어 데이터셋과 UL2의 사전 학습 과제들을 활용한다. 우리는 이 모델을 다양한 다국어 요약 및 질의응답 과제에서 평가했으며, 그 결과 mLongT5가 mBART나 M-BERT와 같은 기존의 다국어 모델들에 비해 더 강력한 성능을 보임을 확인했다.
English
We present our work on developing a multilingual, efficient text-to-text transformer that is suitable for handling long inputs. This model, called mLongT5, builds upon the architecture of LongT5, while leveraging the multilingual datasets used for pretraining mT5 and the pretraining tasks of UL2. We evaluate this model on a variety of multilingual summarization and question-answering tasks, and the results show stronger performance for mLongT5 when compared to existing multilingual models such as mBART or M-BERT.
PDF21December 15, 2024