ChatPaper.aiChatPaper

Межъязыковое обучение повышает эффективность предварительного обучения больших языковых моделей.

Cross-Lingual Supervision improves Large Language Models Pre-training

May 19, 2023
Авторы: Andrea Schioppa, Xavier Garcia, Orhan Firat
cs.AI

Аннотация

Недавний быстрый прогресс в предварительном обучении крупных языковых моделей (Large Language Models) основывался на использовании самоконтролируемых задач языкового моделирования, таких как предсказание следующего токена или повреждение фрагментов текста. С другой стороны, системы машинного перевода в основном обучаются с использованием кросс-лингвистического контроля, который требует наличия выровненных данных между исходным и целевым языками. Мы демонстрируем, что предварительное обучение крупных языковых моделей на смеси самоконтролируемой задачи языкового моделирования и контролируемой задачи машинного перевода, включая таким образом кросс-лингвистические параллельные данные в процессе предварительного обучения, приводит к моделям с улучшенными способностями к обучению в контексте. Поскольку предварительное обучение является крайне ресурсоемким процессом, а поиск оптимального соотношения между двумя задачами с помощью полного перебора оказывается непомерно дорогим, мы предлагаем простую, но эффективную стратегию для его автоматического определения в ходе предварительного обучения.
English
The recent rapid progress in pre-training Large Language Models has relied on using self-supervised language modeling objectives like next token prediction or span corruption. On the other hand, Machine Translation Systems are mostly trained using cross-lingual supervision that requires aligned data between source and target languages. We demonstrate that pre-training Large Language Models on a mixture of a self-supervised Language Modeling objective and the supervised Machine Translation objective, therefore including cross-lingual parallel data during pre-training, yields models with better in-context learning abilities. As pre-training is a very resource-intensive process and a grid search on the best mixing ratio between the two objectives is prohibitively expensive, we propose a simple yet effective strategy to learn it during pre-training.
PDF20December 15, 2024