Por qué los modelos más grandes aprenden más: Efectos de la capacidad, la interferencia y la retención de tareas raras

Resumen

Los modelos más grandes aprenden tareas que los más pequeños no logran aprender. ¿Qué impulsa este fenómeno? Desarrollamos un argumento fenomenológico simple que sugiere que la escala de ley potencial ya indica que un modelo más grande podrá aprender una parte de la distribución de datos que un modelo más pequeño no logra aprender, incluso con datos de entrenamiento infinitos. Para validar esta afirmación e identificar sus causas, estudiamos los efectos del escalado de modelos en un entorno sintético que consiste en una mezcla de tareas que muestran curvas de escalado monótonas. Los resultados apuntan a una competencia inducida por los datos por los recursos (neuronas). Específicamente, los modelos más pequeños asignan sus neuronas a tareas de alta frecuencia o baja complejidad, por lo que aprenden soluciones que tienen un rendimiento deficiente en tareas raras y complejas. Además, esto ocurre incluso cuando existen soluciones capaces de expresar la tarea deseada. Luego evaluamos cómo un modelo más grande evita este cuello de botella centrado en los datos, encontrando que se debe a un mecanismo de interferencia reducida: los modelos más grandes pueden asignar suficientes recursos a las tareas comunes de modo que las actualizaciones de gradiente para esas tareas se vuelven débiles, lo que significa que no sobrescriben las características de las tareas raras a medida que estas se acumulan lentamente. Finalmente, para validar aún más estas afirmaciones, preentrenamos modelos OLMo (de 4M a 4B parámetros) en tareas novedosas de frecuencia y complejidad variables. Los resultados reflejan los de nuestros experimentos con datos sintéticos: solo los modelos OLMo más grandes aprenden las tareas poco frecuentes y complejas, y estos modelos más grandes incorporan más características de las tareas en sus representaciones y muestran menos interferencia de gradiente entre tareas. En general, ofrecemos una explicación centrada en los datos de por qué los modelos más grandes aprenden tareas que los más pequeños no logran aprender. Esto ayuda a explicar por qué los modelos más grandes son mejores en la práctica, y puede informar preguntas prácticas relacionadas con el dimensionamiento de modelos y las mezclas de datos de entrenamiento.

English

Larger models learn tasks smaller models do not. What drives this phenomenon? We develop a simple phenomenological argument that power-law scaling already suggests that a larger model will be able to learn a part of the data distribution that a smaller model fails to learn, even with infinite training data. To validate this claim and identify its causes, we study the effects of model scaling on a synthetic setup consisting of a mixture of tasks that show monotonic scaling curves. The results point to a data-induced competition over resources (neurons). Specifically, smaller models allocate their neurons to high frequency or low complexity tasks, and so they learn solutions that perform poorly on rare and complex tasks. Moreover, this happens even when solutions capable of expressing the desired task exist. We then assess how a larger model circumvents this data-centric bottleneck, finding that it traces to a reduced interference mechanism: larger models can allocate enough resources to common tasks that the gradient updates for those tasks become weak, which means that they do not overwrite rare-task features as they slowly accumulate. Finally, to further validate these claims, we pretrain OLMo models (4M to 4B parameters) on novel tasks of varying frequency and complexity. The results mirror those from our synthetic data experiments: only the larger OLMo models learn the infrequent and complex tasks, and these larger models embed more task features in their representations and show less gradient interference between tasks. Overall, we offer a data-centric account of why larger models learn tasks that smaller models fail to. This helps explain why larger models are better in practice, and it can inform practical questions concerning model sizing and training data mixtures.