A Supervisão Translingual Melhora o Pré-treinamento de Modelos de Linguagem de Grande Escala
Cross-Lingual Supervision improves Large Language Models Pre-training
May 19, 2023
Autores: Andrea Schioppa, Xavier Garcia, Orhan Firat
cs.AI
Resumo
O recente progresso acelerado no pré-treinamento de Modelos de Linguagem de Grande Escala tem se baseado no uso de objetivos de modelagem de linguagem auto-supervisionados, como a previsão do próximo token ou a corrupção de trechos. Por outro lado, os Sistemas de Tradução Automática são principalmente treinados usando supervisão cruzada entre idiomas, o que requer dados alinhados entre as línguas de origem e destino. Demonstramos que o pré-treinamento de Modelos de Linguagem de Grande Escala com uma mistura de um objetivo de Modelagem de Linguagem auto-supervisionado e o objetivo supervisionado de Tradução Automática, incluindo assim dados paralelos cruzados durante o pré-treinamento, resulta em modelos com melhores habilidades de aprendizado em contexto. Como o pré-treinamento é um processo muito intensivo em recursos e uma busca em grade pela melhor proporção de mistura entre os dois objetivos é proibitivamente cara, propomos uma estratégia simples, porém eficaz, para aprendê-la durante o pré-treinamento.
English
The recent rapid progress in pre-training Large Language Models has relied on
using self-supervised language modeling objectives like next token prediction
or span corruption. On the other hand, Machine Translation Systems are mostly
trained using cross-lingual supervision that requires aligned data between
source and target languages. We demonstrate that pre-training Large Language
Models on a mixture of a self-supervised Language Modeling objective and the
supervised Machine Translation objective, therefore including cross-lingual
parallel data during pre-training, yields models with better in-context
learning abilities. As pre-training is a very resource-intensive process and a
grid search on the best mixing ratio between the two objectives is
prohibitively expensive, we propose a simple yet effective strategy to learn it
during pre-training.