Die Cross-Linguale Aufsicht verbessert das Pre-Training von Large Language Models.

Zusammenfassung

Der jüngste rasche Fortschritt beim Vortraining großer Sprachmodelle basierte auf der Verwendung selbstüberwachter Sprachmodellierungsziele wie der Vorhersage des nächsten Tokens oder der Spannenkorruption. Auf der anderen Seite werden maschinelle Übersetzungssysteme meist mit cross-lingualer Überwachung trainiert, die ausgerichtete Daten zwischen Quell- und Zielsprachen erfordert. Wir zeigen, dass das Vortraining großer Sprachmodelle mit einer Mischung aus einem selbstüberwachten Sprachmodellierungsziel und dem überwachten Ziel der maschinellen Übersetzung – und somit der Einbeziehung cross-lingualer paralleler Daten während des Vortrainings – Modelle mit besseren Fähigkeiten zum In-Context-Lernen hervorbringt. Da das Vortraining ein sehr ressourcenintensiver Prozess ist und eine Gittersuche nach dem besten Mischungsverhältnis zwischen den beiden Zielen unverhältnismäßig teuer wäre, schlagen wir eine einfache, aber effektive Strategie vor, um dieses während des Vortrainings zu erlernen.

English

The recent rapid progress in pre-training Large Language Models has relied on using self-supervised language modeling objectives like next token prediction or span corruption. On the other hand, Machine Translation Systems are mostly trained using cross-lingual supervision that requires aligned data between source and target languages. We demonstrate that pre-training Large Language Models on a mixture of a self-supervised Language Modeling objective and the supervised Machine Translation objective, therefore including cross-lingual parallel data during pre-training, yields models with better in-context learning abilities. As pre-training is a very resource-intensive process and a grid search on the best mixing ratio between the two objectives is prohibitively expensive, we propose a simple yet effective strategy to learn it during pre-training.

Die Cross-Linguale Aufsicht verbessert das Pre-Training von Large Language Models.

Cross-Lingual Supervision improves Large Language Models Pre-training

Zusammenfassung

Support