ChatPaper.aiChatPaper

La supervision multilingue améliore le pré-entraînement des grands modèles de langage.

Cross-Lingual Supervision improves Large Language Models Pre-training

May 19, 2023
Auteurs: Andrea Schioppa, Xavier Garcia, Orhan Firat
cs.AI

Résumé

Les récents progrès rapides dans le pré-entraînement des grands modèles de langage reposent sur l'utilisation d'objectifs de modélisation du langage auto-supervisés, tels que la prédiction du prochain jeton ou la corruption de segments. D'un autre côté, les systèmes de traduction automatique sont principalement entraînés en utilisant une supervision cross-lingue qui nécessite des données alignées entre les langues source et cible. Nous démontrons que le pré-entraînement de grands modèles de langage sur un mélange d'un objectif de modélisation du langage auto-supervisé et d'un objectif supervisé de traduction automatique, incluant ainsi des données parallèles cross-lingues pendant le pré-entraînement, produit des modèles dotés de meilleures capacités d'apprentissage en contexte. Comme le pré-entraînement est un processus très gourmand en ressources et qu'une recherche exhaustive du meilleur ratio de mélange entre les deux objectifs est prohibitivement coûteuse, nous proposons une stratégie simple mais efficace pour l'apprendre pendant le pré-entraînement.
English
The recent rapid progress in pre-training Large Language Models has relied on using self-supervised language modeling objectives like next token prediction or span corruption. On the other hand, Machine Translation Systems are mostly trained using cross-lingual supervision that requires aligned data between source and target languages. We demonstrate that pre-training Large Language Models on a mixture of a self-supervised Language Modeling objective and the supervised Machine Translation objective, therefore including cross-lingual parallel data during pre-training, yields models with better in-context learning abilities. As pre-training is a very resource-intensive process and a grid search on the best mixing ratio between the two objectives is prohibitively expensive, we propose a simple yet effective strategy to learn it during pre-training.
PDF20December 15, 2024