Waarom grotere modellen meer leren: Effecten van capaciteit, interferentie en retentie van zeldzame taken

Samenvatting

Grotere modellen leren taken die kleinere modellen niet leren. Wat drijft dit fenomeen? We ontwikkelen een eenvoudig fenomenologisch argument dat machtswetschaling al suggereert dat een groter model een deel van de dataverdeling zal kunnen leren dat een kleiner model niet leert, zelfs met oneindige trainingsdata. Om deze bewering te valideren en de oorzaken ervan te identificeren, bestuderen we de effecten van modelschaling op een synthetische opstelling bestaande uit een mengsel van taken die monotone schalingscurves vertonen. De resultaten wijzen op een data-geïnduceerde concurrentie om hulpbronnen (neuronen). Specifiek wijzen kleinere modellen hun neuronen toe aan taken met hoge frequentie of lage complexiteit, waardoor ze oplossingen leren die slecht presteren op zeldzame en complexe taken. Bovendien gebeurt dit zelfs wanneer er oplossingen bestaan die in staat zijn de gewenste taak uit te drukken. We beoordelen vervolgens hoe een groter model deze data-centrische bottleneck omzeilt, en vinden dat dit terug te voeren is op een verminderd interferentiemechanisme: grotere modellen kunnen voldoende middelen toewijzen aan veelvoorkomende taken zodat de gradiëntupdates voor die taken zwak worden, wat betekent dat ze zeldzame taakkenmerken niet overschrijven terwijl deze langzaam accumuleren. Tot slot, om deze beweringen verder te valideren, pretrainen we OLMo-modellen (4M tot 4B parameters) op nieuwe taken met variërende frequentie en complexiteit. De resultaten weerspiegelen die van onze synthetische data-experimenten: alleen de grotere OLMo-modellen leren de zeldzame en complexe taken, en deze grotere modellen verwerken meer taakkenmerken in hun representaties en vertonen minder gradiëntinterferentie tussen taken. Over het geheel genomen bieden we een data-centrische verklaring waarom grotere modellen taken leren die kleinere modellen niet leren. Dit helpt verklaren waarom grotere modellen in de praktijk beter zijn, en het kan praktische vragen over modelgrootte en mengsels van trainingsdata informeren.

English

Larger models learn tasks smaller models do not. What drives this phenomenon? We develop a simple phenomenological argument that power-law scaling already suggests that a larger model will be able to learn a part of the data distribution that a smaller model fails to learn, even with infinite training data. To validate this claim and identify its causes, we study the effects of model scaling on a synthetic setup consisting of a mixture of tasks that show monotonic scaling curves. The results point to a data-induced competition over resources (neurons). Specifically, smaller models allocate their neurons to high frequency or low complexity tasks, and so they learn solutions that perform poorly on rare and complex tasks. Moreover, this happens even when solutions capable of expressing the desired task exist. We then assess how a larger model circumvents this data-centric bottleneck, finding that it traces to a reduced interference mechanism: larger models can allocate enough resources to common tasks that the gradient updates for those tasks become weak, which means that they do not overwrite rare-task features as they slowly accumulate. Finally, to further validate these claims, we pretrain OLMo models (4M to 4B parameters) on novel tasks of varying frequency and complexity. The results mirror those from our synthetic data experiments: only the larger OLMo models learn the infrequent and complex tasks, and these larger models embed more task features in their representations and show less gradient interference between tasks. Overall, we offer a data-centric account of why larger models learn tasks that smaller models fail to. This helps explain why larger models are better in practice, and it can inform practical questions concerning model sizing and training data mixtures.