La supervisión multilingüe mejora el preentrenamiento de modelos de lenguaje a gran escala
Cross-Lingual Supervision improves Large Language Models Pre-training
May 19, 2023
Autores: Andrea Schioppa, Xavier Garcia, Orhan Firat
cs.AI
Resumen
El reciente y rápido progreso en el preentrenamiento de Modelos de Lenguaje a Gran Escala se ha basado en el uso de objetivos de modelado del lenguaje autosupervisados, como la predicción del siguiente token o la corrupción de segmentos. Por otro lado, los Sistemas de Traducción Automática se entrenan principalmente utilizando supervisión cruzada entre idiomas, lo que requiere datos alineados entre los idiomas de origen y destino. Demostramos que el preentrenamiento de Modelos de Lenguaje a Gran Escala con una mezcla de un objetivo de Modelado del Lenguaje autosupervisado y el objetivo supervisado de Traducción Automática, incluyendo así datos paralelos cruzados durante el preentrenamiento, produce modelos con mejores capacidades de aprendizaje en contexto. Dado que el preentrenamiento es un proceso que consume muchos recursos y una búsqueda exhaustiva de la mejor proporción de mezcla entre los dos objetivos resulta prohibitivamente costosa, proponemos una estrategia simple pero efectiva para aprenderla durante el preentrenamiento.
English
The recent rapid progress in pre-training Large Language Models has relied on
using self-supervised language modeling objectives like next token prediction
or span corruption. On the other hand, Machine Translation Systems are mostly
trained using cross-lingual supervision that requires aligned data between
source and target languages. We demonstrate that pre-training Large Language
Models on a mixture of a self-supervised Language Modeling objective and the
supervised Machine Translation objective, therefore including cross-lingual
parallel data during pre-training, yields models with better in-context
learning abilities. As pre-training is a very resource-intensive process and a
grid search on the best mixing ratio between the two objectives is
prohibitively expensive, we propose a simple yet effective strategy to learn it
during pre-training.