Prever Capacidades Emergentes por Ajuste Fino
Predicting Emergent Capabilities by Finetuning
November 25, 2024
Autores: Charlie Snell, Eric Wallace, Dan Klein, Sergey Levine
cs.AI
Resumo
Um desafio fundamental em aberto na escalabilidade moderna de LLM é a falta de compreensão em torno das capacidades emergentes. Em particular, sabe-se que a perda de pré-treinamento do modelo de linguagem é altamente previsível como uma função de computação. No entanto, as capacidades subsequentes são muito menos previsíveis - às vezes até exibindo saltos emergentes - o que torna desafiador antecipar as capacidades de modelos futuros. Neste trabalho, primeiro propomos a tarefa de previsão de emergência: dado o acesso a LLMs atuais que têm precisão aleatória de poucas amostras em uma tarefa, podemos prever se os modelos futuros (GPT-N+1) terão precisão não trivial nessa tarefa? Em seguida, descobrimos uma percepção simples para esse problema: o ajuste fino de LLMs em uma determinada tarefa pode deslocar o ponto na escalabilidade em que a emergência ocorre em direção a modelos menos capazes. Para operacionalizar essa percepção, podemos ajustar finamente LLMs com quantidades variadas de dados e ajustar uma função paramétrica que prevê quando a emergência ocorrerá (ou seja, "leis de emergência"). Validamos essa abordagem usando quatro benchmarks padrão de PNL onde LLMs de código aberto em larga escala já demonstram emergência (MMLU, GSM8K, CommonsenseQA e CoLA). Usando apenas LLMs em pequena escala, descobrimos que, em alguns casos, podemos prever com precisão se modelos treinados com até 4x mais computação emergiram. Por fim, apresentamos um estudo de caso de dois usos realistas para previsão de emergência.
English
A fundamental open challenge in modern LLM scaling is the lack of
understanding around emergent capabilities. In particular, language model
pretraining loss is known to be highly predictable as a function of compute.
However, downstream capabilities are far less predictable -- sometimes even
exhibiting emergent jumps -- which makes it challenging to anticipate the
capabilities of future models. In this work, we first pose the task of
emergence prediction: given access to current LLMs that have random few-shot
accuracy on a task, can we predict whether future models (GPT-N+1) will have
non-trivial accuracy on that task? We then discover a simple insight for this
problem: finetuning LLMs on a given task can shift the point in scaling at
which emergence occurs towards less capable models. To operationalize this
insight, we can finetune LLMs with varying amounts of data and fit a parametric
function that predicts when emergence will occur (i.e., "emergence laws"). We
validate this approach using four standard NLP benchmarks where large-scale
open-source LLMs already demonstrate emergence (MMLU, GSM8K, CommonsenseQA, and
CoLA). Using only small-scale LLMs, we find that, in some cases, we can
accurately predict whether models trained with up to 4x more compute have
emerged. Finally, we present a case study of two realistic uses for emergence
prediction.Summary
AI-Generated Summary