ChatPaper.aiChatPaper

Progreso algorítmico en modelos de lenguaje

Algorithmic progress in language models

March 9, 2024
Autores: Anson Ho, Tamay Besiroglu, Ege Erdil, David Owen, Robi Rahman, Zifan Carl Guo, David Atkinson, Neil Thompson, Jaime Sevilla
cs.AI

Resumen

Investigamos la tasa a la que han mejorado los algoritmos para el preentrenamiento de modelos de lenguaje desde el surgimiento del aprendizaje profundo. Utilizando un conjunto de datos de más de 200 evaluaciones de modelos de lenguaje en Wikitext y Penn Treebank que abarcan de 2012 a 2023, encontramos que el cómputo necesario para alcanzar un umbral de rendimiento determinado se ha reducido a la mitad aproximadamente cada 8 meses, con un intervalo de confianza del 95% de entre 5 y 14 meses, sustancialmente más rápido que las mejoras en hardware según la Ley de Moore. Estimamos leyes de escalamiento aumentadas, que nos permiten cuantificar el progreso algorítmico y determinar las contribuciones relativas del escalamiento de modelos frente a las innovaciones en los algoritmos de entrenamiento. A pesar del rápido ritmo de progreso algorítmico y del desarrollo de nuevas arquitecturas como el transformador, nuestro análisis revela que el aumento en el cómputo contribuyó aún más a las mejoras generales de rendimiento durante este período. Aunque limitado por datos de evaluación ruidosos, nuestro análisis cuantifica el rápido progreso en el modelado de lenguaje, arrojando luz sobre las contribuciones relativas del cómputo y los algoritmos.
English
We investigate the rate at which algorithms for pre-training language models have improved since the advent of deep learning. Using a dataset of over 200 language model evaluations on Wikitext and Penn Treebank spanning 2012-2023, we find that the compute required to reach a set performance threshold has halved approximately every 8 months, with a 95% confidence interval of around 5 to 14 months, substantially faster than hardware gains per Moore's Law. We estimate augmented scaling laws, which enable us to quantify algorithmic progress and determine the relative contributions of scaling models versus innovations in training algorithms. Despite the rapid pace of algorithmic progress and the development of new architectures such as the transformer, our analysis reveals that the increase in compute made an even larger contribution to overall performance improvements over this time period. Though limited by noisy benchmark data, our analysis quantifies the rapid progress in language modeling, shedding light on the relative contributions from compute and algorithms.

Summary

AI-Generated Summary

PDF211December 15, 2024