Прогнозирование возникающих возможностей путем донастройки.
Predicting Emergent Capabilities by Finetuning
November 25, 2024
Авторы: Charlie Snell, Eric Wallace, Dan Klein, Sergey Levine
cs.AI
Аннотация
Одной из основных открытых проблем современного масштабирования LLM является недостаточное понимание возникающих возможностей. В частности, известно, что потери предварительного обучения языковых моделей можно высоко предсказать как функцию вычислений. Однако возможности на уровне конечных задач гораздо менее предсказуемы, иногда даже проявляя эмерджентные скачки, что затрудняет предвидение возможностей будущих моделей. В данной работе мы первоначально ставим задачу предсказания эмерджентности: имея доступ к текущим LLM с случайной точностью few-shot на задаче, можем ли мы предсказать, будут ли у будущих моделей (GPT-N+1) значимые результаты на данной задаче? Затем мы обнаруживаем простое наблюдение для данной проблемы: донастройка LLM на заданной задаче может сдвинуть точку эмерджентности к менее способным моделям. Для операционализации этого наблюдения мы можем донастраивать LLM с различными объемами данных и подгонять параметрическую функцию, которая предсказывает момент эмерджентности (т.е. "законы эмерджентности"). Мы проверяем этот подход на четырех стандартных бенчмарках NLP, где крупномасштабные открытые LLM уже демонстрируют эмерджентность (MMLU, GSM8K, CommonsenseQA и CoLA). Используя только LLM малого масштаба, мы обнаруживаем, что в некоторых случаях мы можем точно предсказать, появились ли модели, обученные с использованием до 4 раз большего количества вычислений. Наконец, мы представляем кейс-стади двух реалистичных применений предсказания эмерджентности.
English
A fundamental open challenge in modern LLM scaling is the lack of
understanding around emergent capabilities. In particular, language model
pretraining loss is known to be highly predictable as a function of compute.
However, downstream capabilities are far less predictable -- sometimes even
exhibiting emergent jumps -- which makes it challenging to anticipate the
capabilities of future models. In this work, we first pose the task of
emergence prediction: given access to current LLMs that have random few-shot
accuracy on a task, can we predict whether future models (GPT-N+1) will have
non-trivial accuracy on that task? We then discover a simple insight for this
problem: finetuning LLMs on a given task can shift the point in scaling at
which emergence occurs towards less capable models. To operationalize this
insight, we can finetune LLMs with varying amounts of data and fit a parametric
function that predicts when emergence will occur (i.e., "emergence laws"). We
validate this approach using four standard NLP benchmarks where large-scale
open-source LLMs already demonstrate emergence (MMLU, GSM8K, CommonsenseQA, and
CoLA). Using only small-scale LLMs, we find that, in some cases, we can
accurately predict whether models trained with up to 4x more compute have
emerged. Finally, we present a case study of two realistic uses for emergence
prediction.Summary
AI-Generated Summary