Warum größere Modelle mehr lernen: Auswirkungen von Kapazität, Interferenz und Retention seltener Aufgaben

Zusammenfassung

Größere Modelle lernen Aufgaben, die kleinere Modelle nicht lernen. Was ist die Ursache dieses Phänomens? Wir entwickeln ein einfaches phänomenologisches Argument, das darauf hindeutet, dass Potenzgesetz-Skalierung bereits nahelegt, dass ein größeres Modell in der Lage sein wird, einen Teil der Datenverteilung zu lernen, den ein kleineres Modell nicht lernen kann – selbst bei unendlich vielen Trainingsdaten. Um diese Behauptung zu validieren und ihre Ursachen zu identifizieren, untersuchen wir die Auswirkungen der Modellskalierung auf ein synthetisches Setting, das aus einer Mischung von Aufgaben besteht, die monotone Skalierungskurven aufweisen. Die Ergebnisse deuten auf eine dateninduzierte Konkurrenz um Ressourcen (Neuronen) hin. Insbesondere weisen kleinere Modelle ihre Neuronen Aufgaben mit hoher Häufigkeit oder geringer Komplexität zu und lernen daher Lösungen, die bei seltenen und komplexen Aufgaben schlecht abschneiden. Darüber hinaus tritt dies sogar dann auf, wenn Lösungen existieren, die die gewünschte Aufgabe ausdrücken können. Anschließend bewerten wir, wie ein größeres Modell diesen datenzentrierten Engpass umgeht, und stellen fest, dass dies auf einen reduzierten Interferenzmechanismus zurückzuführen ist: Größere Modelle können ausreichend Ressourcen für häufige Aufgaben bereitstellen, sodass die Gradientenaktualisierungen für diese Aufgaben schwach werden, was bedeutet, dass sie die Merkmale seltener Aufgaben nicht überschreiben, während diese sich langsam ansammeln. Schließlich validieren wir diese Behauptungen weiter, indem wir OLMo-Modelle (4M bis 4B Parameter) auf neuartigen Aufgaben unterschiedlicher Häufigkeit und Komplexität vortrainieren. Die Ergebnisse spiegeln die unserer synthetischen Datensimulationen wider: Nur die größeren OLMo-Modelle lernen die seltenen und komplexen Aufgaben, und diese größeren Modelle betten mehr Aufgabenmerkmale in ihre Repräsentationen ein und zeigen weniger Gradienteninterferenz zwischen Aufgaben. Insgesamt bieten wir eine datenzentrierte Erklärung dafür, warum größere Modelle Aufgaben lernen, die kleinere Modelle nicht lernen. Dies hilft zu erklären, warum größere Modelle in der Praxis besser sind, und kann praktische Fragen zur Modellgröße und zu Trainingsdatenmischungen beantworten.

English

Larger models learn tasks smaller models do not. What drives this phenomenon? We develop a simple phenomenological argument that power-law scaling already suggests that a larger model will be able to learn a part of the data distribution that a smaller model fails to learn, even with infinite training data. To validate this claim and identify its causes, we study the effects of model scaling on a synthetic setup consisting of a mixture of tasks that show monotonic scaling curves. The results point to a data-induced competition over resources (neurons). Specifically, smaller models allocate their neurons to high frequency or low complexity tasks, and so they learn solutions that perform poorly on rare and complex tasks. Moreover, this happens even when solutions capable of expressing the desired task exist. We then assess how a larger model circumvents this data-centric bottleneck, finding that it traces to a reduced interference mechanism: larger models can allocate enough resources to common tasks that the gradient updates for those tasks become weak, which means that they do not overwrite rare-task features as they slowly accumulate. Finally, to further validate these claims, we pretrain OLMo models (4M to 4B parameters) on novel tasks of varying frequency and complexity. The results mirror those from our synthetic data experiments: only the larger OLMo models learn the infrequent and complex tasks, and these larger models embed more task features in their representations and show less gradient interference between tasks. Overall, we offer a data-centric account of why larger models learn tasks that smaller models fail to. This helps explain why larger models are better in practice, and it can inform practical questions concerning model sizing and training data mixtures.