Leyes de Escalamiento Observacionales y la Predictibilidad del Rendimiento de Modelos de Lenguaje
Observational Scaling Laws and the Predictability of Language Model Performance
May 17, 2024
Autores: Yangjun Ruan, Chris J. Maddison, Tatsunori Hashimoto
cs.AI
Resumen
Comprender cómo varía el rendimiento de los modelos de lenguaje con la escala es fundamental para el desarrollo de benchmarks y algoritmos. Las leyes de escalamiento son un enfoque para construir esta comprensión, pero la necesidad de entrenar modelos en muchas escalas diferentes ha limitado su uso. Proponemos un enfoque alternativo, observacional, que evita el entrenamiento de modelos y, en su lugar, construye leyes de escalamiento a partir de ~80 modelos disponibles públicamente. Construir una única ley de escalamiento a partir de múltiples familias de modelos es un desafío debido a las grandes variaciones en sus eficiencias computacionales de entrenamiento y capacidades. Sin embargo, demostramos que estas variaciones son consistentes con una ley de escalamiento generalizada y simple, donde el rendimiento del modelo de lenguaje es una función de un espacio de capacidades de baja dimensión, y las familias de modelos solo varían en su eficiencia para convertir el cómputo de entrenamiento en capacidades. Utilizando este enfoque, mostramos la sorprendente previsibilidad de fenómenos de escalamiento complejos: demostramos que varios fenómenos emergentes siguen un comportamiento suave y sigmoide y son predecibles a partir de modelos pequeños; mostramos que el rendimiento de agentes como GPT-4 puede predecirse con precisión a partir de benchmarks no agenticos más simples; y mostramos cómo predecir el impacto de intervenciones post-entrenamiento como Chain-of-Thought y Self-Consistency a medida que las capacidades de los modelos de lenguaje continúan mejorando.
English
Understanding how language model performance varies with scale is critical to
benchmark and algorithm development. Scaling laws are one approach to building
this understanding, but the requirement of training models across many
different scales has limited their use. We propose an alternative,
observational approach that bypasses model training and instead builds scaling
laws from ~80 publically available models. Building a single scaling law from
multiple model families is challenging due to large variations in their
training compute efficiencies and capabilities. However, we show that these
variations are consistent with a simple, generalized scaling law where language
model performance is a function of a low-dimensional capability space, and
model families only vary in their efficiency in converting training compute to
capabilities. Using this approach, we show the surprising predictability of
complex scaling phenomena: we show that several emergent phenomena follow a
smooth, sigmoidal behavior and are predictable from small models; we show that
the agent performance of models such as GPT-4 can be precisely predicted from
simpler non-agentic benchmarks; and we show how to predict the impact of
post-training interventions like Chain-of-Thought and Self-Consistency as
language model capabilities continue to improve.