ChatPaper.aiChatPaper

Predicción de Capacidades Emergentes mediante Ajuste Fino

Predicting Emergent Capabilities by Finetuning

November 25, 2024
Autores: Charlie Snell, Eric Wallace, Dan Klein, Sergey Levine
cs.AI

Resumen

Un desafío fundamental abierto en la escalabilidad moderna de los LLM es la falta de comprensión en torno a las capacidades emergentes. En particular, se sabe que la pérdida de preentrenamiento del modelo de lenguaje es altamente predecible en función del cálculo. Sin embargo, las capacidades posteriores son mucho menos predecibles, a veces incluso mostrando saltos emergentes, lo que dificulta anticipar las capacidades de los modelos futuros. En este trabajo, planteamos primero la tarea de predicción de emergencia: dado acceso a LLMs actuales que tienen precisión aleatoria de pocos disparos en una tarea, ¿podemos predecir si los modelos futuros (GPT-N+1) tendrán precisión no trivial en esa tarea? Luego descubrimos una idea simple para este problema: el ajuste fino de LLMs en una tarea dada puede desplazar el punto en la escala en el que ocurre la emergencia hacia modelos menos capaces. Para operacionalizar esta idea, podemos ajustar finamente LLMs con diferentes cantidades de datos y ajustar una función paramétrica que predice cuándo ocurrirá la emergencia (es decir, "leyes de emergencia"). Validamos este enfoque utilizando cuatro pruebas estándar de PNL donde los LLMs de código abierto a gran escala ya demuestran emergencia (MMLU, GSM8K, CommonsenseQA y CoLA). Utilizando solo LLMs a pequeña escala, encontramos que, en algunos casos, podemos predecir con precisión si los modelos entrenados con hasta 4 veces más cálculo han emergido. Finalmente, presentamos un estudio de caso de dos usos realistas para la predicción de emergencia.
English
A fundamental open challenge in modern LLM scaling is the lack of understanding around emergent capabilities. In particular, language model pretraining loss is known to be highly predictable as a function of compute. However, downstream capabilities are far less predictable -- sometimes even exhibiting emergent jumps -- which makes it challenging to anticipate the capabilities of future models. In this work, we first pose the task of emergence prediction: given access to current LLMs that have random few-shot accuracy on a task, can we predict whether future models (GPT-N+1) will have non-trivial accuracy on that task? We then discover a simple insight for this problem: finetuning LLMs on a given task can shift the point in scaling at which emergence occurs towards less capable models. To operationalize this insight, we can finetune LLMs with varying amounts of data and fit a parametric function that predicts when emergence will occur (i.e., "emergence laws"). We validate this approach using four standard NLP benchmarks where large-scale open-source LLMs already demonstrate emergence (MMLU, GSM8K, CommonsenseQA, and CoLA). Using only small-scale LLMs, we find that, in some cases, we can accurately predict whether models trained with up to 4x more compute have emerged. Finally, we present a case study of two realistic uses for emergence prediction.

Summary

AI-Generated Summary

PDF92November 26, 2024