Leyes de Escalamiento Observacionales y la Predictibilidad del Rendimiento de Modelos de Lenguaje

Resumen

Comprender cómo varía el rendimiento de los modelos de lenguaje con la escala es fundamental para el desarrollo de benchmarks y algoritmos. Las leyes de escalamiento son un enfoque para construir esta comprensión, pero la necesidad de entrenar modelos en muchas escalas diferentes ha limitado su uso. Proponemos un enfoque alternativo, observacional, que evita el entrenamiento de modelos y, en su lugar, construye leyes de escalamiento a partir de ~80 modelos disponibles públicamente. Construir una única ley de escalamiento a partir de múltiples familias de modelos es un desafío debido a las grandes variaciones en sus eficiencias computacionales de entrenamiento y capacidades. Sin embargo, demostramos que estas variaciones son consistentes con una ley de escalamiento generalizada y simple, donde el rendimiento del modelo de lenguaje es una función de un espacio de capacidades de baja dimensión, y las familias de modelos solo varían en su eficiencia para convertir el cómputo de entrenamiento en capacidades. Utilizando este enfoque, mostramos la sorprendente previsibilidad de fenómenos de escalamiento complejos: demostramos que varios fenómenos emergentes siguen un comportamiento suave y sigmoide y son predecibles a partir de modelos pequeños; mostramos que el rendimiento de agentes como GPT-4 puede predecirse con precisión a partir de benchmarks no agenticos más simples; y mostramos cómo predecir el impacto de intervenciones post-entrenamiento como Chain-of-Thought y Self-Consistency a medida que las capacidades de los modelos de lenguaje continúan mejorando.

English

Understanding how language model performance varies with scale is critical to benchmark and algorithm development. Scaling laws are one approach to building this understanding, but the requirement of training models across many different scales has limited their use. We propose an alternative, observational approach that bypasses model training and instead builds scaling laws from ~80 publically available models. Building a single scaling law from multiple model families is challenging due to large variations in their training compute efficiencies and capabilities. However, we show that these variations are consistent with a simple, generalized scaling law where language model performance is a function of a low-dimensional capability space, and model families only vary in their efficiency in converting training compute to capabilities. Using this approach, we show the surprising predictability of complex scaling phenomena: we show that several emergent phenomena follow a smooth, sigmoidal behavior and are predictable from small models; we show that the agent performance of models such as GPT-4 can be precisely predicted from simpler non-agentic benchmarks; and we show how to predict the impact of post-training interventions like Chain-of-Thought and Self-Consistency as language model capabilities continue to improve.

Leyes de Escalamiento Observacionales y la Predictibilidad del Rendimiento de Modelos de Lenguaje

Observational Scaling Laws and the Predictability of Language Model Performance

Resumen

Support