Pourquoi les modèles plus grands apprennent davantage : effets de la capacité, de l'interférence et de la rétention des tâches rares

Résumé

Les modèles plus grands apprennent des tâches que les modèles plus petits n'apprennent pas. Qu'est-ce qui motive ce phénomène ? Nous développons un argument phénoménologique simple selon lequel la loi d'échelle en puissance suggère déjà qu'un modèle plus grand sera capable d'apprendre une partie de la distribution des données qu'un modèle plus petit ne parvient pas à apprendre, même avec des données d'entraînement infinies. Pour valider cette affirmation et identifier ses causes, nous étudions les effets de la mise à l'échelle des modèles sur un dispositif synthétique composé d'un mélange de tâches présentant des courbes d'échelle monotones. Les résultats indiquent une compétition induite par les données pour les ressources (neurones). Plus précisément, les modèles plus petits allouent leurs neurones à des tâches à haute fréquence ou de faible complexité, et apprennent ainsi des solutions qui performent mal sur les tâches rares et complexes. De plus, cela se produit même lorsque des solutions capables d'exprimer la tâche souhaitée existent. Nous évaluons ensuite comment un modèle plus grand contourne ce goulot d'étranglement centré sur les données, et constatons que cela découle d'un mécanisme d'interférence réduit : les modèles plus grands peuvent allouer suffisamment de ressources aux tâches courantes pour que les mises à jour de gradient pour ces tâches deviennent faibles, ce qui signifie qu'elles n'écrasent pas les caractéristiques des tâches rares au fur et à mesure qu'elles s'accumulent lentement. Enfin, pour valider davantage ces affirmations, nous pré-entraînons des modèles OLMo (de 4M à 4B paramètres) sur de nouvelles tâches de fréquence et complexité variables. Les résultats reflètent ceux de nos expériences sur données synthétiques : seuls les modèles OLMo plus grands apprennent les tâches peu fréquentes et complexes, et ces modèles plus grands intègrent davantage de caractéristiques de tâches dans leurs représentations et montrent moins d'interférence de gradient entre les tâches. Dans l'ensemble, nous proposons une analyse centrée sur les données expliquant pourquoi les modèles plus grands apprennent des tâches que les modèles plus petits ne parviennent pas à apprendre. Cela aide à comprendre pourquoi les modèles plus grands sont meilleurs en pratique, et peut éclairer des questions pratiques concernant le dimensionnement des modèles et les mélanges de données d'entraînement.

English

Larger models learn tasks smaller models do not. What drives this phenomenon? We develop a simple phenomenological argument that power-law scaling already suggests that a larger model will be able to learn a part of the data distribution that a smaller model fails to learn, even with infinite training data. To validate this claim and identify its causes, we study the effects of model scaling on a synthetic setup consisting of a mixture of tasks that show monotonic scaling curves. The results point to a data-induced competition over resources (neurons). Specifically, smaller models allocate their neurons to high frequency or low complexity tasks, and so they learn solutions that perform poorly on rare and complex tasks. Moreover, this happens even when solutions capable of expressing the desired task exist. We then assess how a larger model circumvents this data-centric bottleneck, finding that it traces to a reduced interference mechanism: larger models can allocate enough resources to common tasks that the gradient updates for those tasks become weak, which means that they do not overwrite rare-task features as they slowly accumulate. Finally, to further validate these claims, we pretrain OLMo models (4M to 4B parameters) on novel tasks of varying frequency and complexity. The results mirror those from our synthetic data experiments: only the larger OLMo models learn the infrequent and complex tasks, and these larger models embed more task features in their representations and show less gradient interference between tasks. Overall, we offer a data-centric account of why larger models learn tasks that smaller models fail to. This helps explain why larger models are better in practice, and it can inform practical questions concerning model sizing and training data mixtures.