Закономерности масштабирования для производительности крупных языковых моделей на целевых задачах
Scaling Laws for Downstream Task Performance of Large Language Models
February 6, 2024
Авторы: Berivan Isik, Natalia Ponomareva, Hussein Hazimeh, Dimitris Paparas, Sergei Vassilvitskii, Sanmi Koyejo
cs.AI
Аннотация
Законы масштабирования предоставляют важные инсайты, которые могут направлять проектирование больших языковых моделей (LLM). Существующие работы в основном сосредоточены на изучении законов масштабирования для потерь при предварительном обучении (upstream). Однако в условиях трансферного обучения, когда LLM предварительно обучаются на неразмеченных данных, а затем дообучаются для решения конкретной задачи, нас также часто интересует производительность на конечной задаче. В данной работе мы изучаем поведение масштабирования в условиях трансферного обучения, где LLM дообучаются для задач машинного перевода. В частности, мы исследуем, как выбор данных для предварительного обучения и их объем влияют на производительность на конечной задаче (качество перевода), оцениваемую по двум метрикам: кросс-энтропии на конечной задаче и оценке BLEU. Наши эксперименты показывают, что объем данных для дообучения и степень согласованности распределений данных для предварительного обучения и конечной задачи существенно влияют на поведение масштабирования. При достаточной согласованности как кросс-энтропия на конечной задаче, так и оценка BLEU монотонно улучшаются с увеличением объема данных для предварительного обучения. В таких случаях мы демонстрируем, что можно с высокой точностью предсказать оценку BLEU на конечной задаче с использованием логарифмического закона. Однако существуют также случаи, когда умеренное несоответствие приводит к колебаниям или ухудшению оценки BLEU при увеличении объема данных для предварительного обучения, в то время как кросс-энтропия на конечной задаче продолжает монотонно улучшаться. Анализируя эти наблюдения, мы предлагаем новые практические рекомендации для выбора подходящих данных для предварительного обучения.
English
Scaling laws provide important insights that can guide the design of large
language models (LLMs). Existing work has primarily focused on studying scaling
laws for pretraining (upstream) loss. However, in transfer learning settings,
in which LLMs are pretrained on an unsupervised dataset and then finetuned on a
downstream task, we often also care about the downstream performance. In this
work, we study the scaling behavior in a transfer learning setting, where LLMs
are finetuned for machine translation tasks. Specifically, we investigate how
the choice of the pretraining data and its size affect downstream performance
(translation quality) as judged by two metrics: downstream cross-entropy and
BLEU score. Our experiments indicate that the size of the finetuning dataset
and the distribution alignment between the pretraining and downstream data
significantly influence the scaling behavior. With sufficient alignment, both
downstream cross-entropy and BLEU score improve monotonically with more
pretraining data. In such cases, we show that it is possible to predict the
downstream BLEU score with good accuracy using a log-law. However, there are
also cases where moderate misalignment causes the BLEU score to fluctuate or
get worse with more pretraining, whereas downstream cross-entropy monotonically
improves. By analyzing these observations, we provide new practical insights
for choosing appropriate pretraining data.