Die Cross-Linguale Aufsicht verbessert das Pre-Training von Large Language Models.
Cross-Lingual Supervision improves Large Language Models Pre-training
May 19, 2023
Autoren: Andrea Schioppa, Xavier Garcia, Orhan Firat
cs.AI
Zusammenfassung
Der jüngste rasche Fortschritt beim Vortraining großer Sprachmodelle basierte auf der Verwendung selbstüberwachter Sprachmodellierungsziele wie der Vorhersage des nächsten Tokens oder der Spannenkorruption. Auf der anderen Seite werden maschinelle Übersetzungssysteme meist mit cross-lingualer Überwachung trainiert, die ausgerichtete Daten zwischen Quell- und Zielsprachen erfordert. Wir zeigen, dass das Vortraining großer Sprachmodelle mit einer Mischung aus einem selbstüberwachten Sprachmodellierungsziel und dem überwachten Ziel der maschinellen Übersetzung – und somit der Einbeziehung cross-lingualer paralleler Daten während des Vortrainings – Modelle mit besseren Fähigkeiten zum In-Context-Lernen hervorbringt. Da das Vortraining ein sehr ressourcenintensiver Prozess ist und eine Gittersuche nach dem besten Mischungsverhältnis zwischen den beiden Zielen unverhältnismäßig teuer wäre, schlagen wir eine einfache, aber effektive Strategie vor, um dieses während des Vortrainings zu erlernen.
English
The recent rapid progress in pre-training Large Language Models has relied on
using self-supervised language modeling objectives like next token prediction
or span corruption. On the other hand, Machine Translation Systems are mostly
trained using cross-lingual supervision that requires aligned data between
source and target languages. We demonstrate that pre-training Large Language
Models on a mixture of a self-supervised Language Modeling objective and the
supervised Machine Translation objective, therefore including cross-lingual
parallel data during pre-training, yields models with better in-context
learning abilities. As pre-training is a very resource-intensive process and a
grid search on the best mixing ratio between the two objectives is
prohibitively expensive, we propose a simple yet effective strategy to learn it
during pre-training.