ChatPaper.aiChatPaper

Voorspellen van Opkomende Mogelijkheden door Fijnafstemming

Predicting Emergent Capabilities by Finetuning

November 25, 2024
Auteurs: Charlie Snell, Eric Wallace, Dan Klein, Sergey Levine
cs.AI

Samenvatting

Een fundamentele open uitdaging bij het schalen van moderne LLM's is het gebrek aan begrip rond opkomende mogelijkheden. Met name is bekend dat de voorafgaande training van taalmodellen zeer voorspelbaar is als functie van berekeningen. Echter, de mogelijkheden op lager niveau zijn veel minder voorspelbaar - soms zelfs met opkomende sprongen - wat het moeilijk maakt om de mogelijkheden van toekomstige modellen te anticiperen. In dit werk stellen we eerst de taak van opkomstvoorspelling: gegeven toegang tot huidige LLM's die willekeurige few-shot nauwkeurigheid hebben op een taak, kunnen we voorspellen of toekomstige modellen (GPT-N+1) een niet-triviale nauwkeurigheid op die taak zullen hebben? Vervolgens ontdekken we een eenvoudig inzicht voor dit probleem: het fine-tunen van LLM's op een gegeven taak kan het punt in schalen verschuiven waarop opkomst optreedt naar minder capabele modellen. Om dit inzicht operationeel te maken, kunnen we LLM's fine-tunen met verschillende hoeveelheden gegevens en een parametrische functie passen die voorspelt wanneer opkomst zal plaatsvinden (d.w.z. "opkomstwetten"). We valideren deze aanpak met behulp van vier standaard NLP-benchmarks waar grote open-source LLM's al opkomst aantonen (MMLU, GSM8K, CommonsenseQA en CoLA). Met behulp van alleen kleinschalige LLM's vinden we dat we in sommige gevallen nauwkeurig kunnen voorspellen of modellen die zijn getraind met tot 4x meer berekeningen zijn opgekomen. Tot slot presenteren we een casestudie van twee realistische toepassingen voor opkomstvoorspelling.
English
A fundamental open challenge in modern LLM scaling is the lack of understanding around emergent capabilities. In particular, language model pretraining loss is known to be highly predictable as a function of compute. However, downstream capabilities are far less predictable -- sometimes even exhibiting emergent jumps -- which makes it challenging to anticipate the capabilities of future models. In this work, we first pose the task of emergence prediction: given access to current LLMs that have random few-shot accuracy on a task, can we predict whether future models (GPT-N+1) will have non-trivial accuracy on that task? We then discover a simple insight for this problem: finetuning LLMs on a given task can shift the point in scaling at which emergence occurs towards less capable models. To operationalize this insight, we can finetune LLMs with varying amounts of data and fit a parametric function that predicts when emergence will occur (i.e., "emergence laws"). We validate this approach using four standard NLP benchmarks where large-scale open-source LLMs already demonstrate emergence (MMLU, GSM8K, CommonsenseQA, and CoLA). Using only small-scale LLMs, we find that, in some cases, we can accurately predict whether models trained with up to 4x more compute have emerged. Finally, we present a case study of two realistic uses for emergence prediction.

Summary

AI-Generated Summary

PDF92November 26, 2024