Por que modelos maiores aprendem mais: efeitos de capacidade, interferência e retenção de tarefas raras

Resumo

Modelos maiores aprendem tarefas que modelos menores não aprendem. O que impulsiona esse fenômeno? Desenvolvemos um argumento fenomenológico simples de que a escala de lei de potência já sugere que um modelo maior será capaz de aprender uma parte da distribuição de dados que um modelo menor não consegue aprender, mesmo com dados de treinamento infinitos. Para validar essa afirmação e identificar suas causas, estudamos os efeitos da escala do modelo em um cenário sintético composto por uma mistura de tarefas que apresentam curvas de escala monotônicas. Os resultados apontam para uma competição induzida pelos dados por recursos (neurônios). Especificamente, modelos menores alocam seus neurônios para tarefas de alta frequência ou baixa complexidade, e assim aprendem soluções que têm desempenho ruim em tarefas raras e complexas. Além disso, isso ocorre mesmo quando existem soluções capazes de expressar a tarefa desejada. Em seguida, avaliamos como um modelo maior contorna esse gargalo centrado nos dados, descobrindo que isso se deve a um mecanismo de interferência reduzida: modelos maiores podem alocar recursos suficientes para tarefas comuns de modo que as atualizações de gradiente para essas tarefas se tornam fracas, o que significa que elas não sobrescrevem características de tarefas raras à medida que estas se acumulam lentamente. Por fim, para validar ainda mais essas afirmações, pré-treinamos modelos OLMo (de 4M a 4B parâmetros) em tarefas novas de frequência e complexidade variadas. Os resultados refletem aqueles de nossos experimentos com dados sintéticos: apenas os modelos OLMo maiores aprendem as tarefas infrequentes e complexas, e esses modelos maiores incorporam mais características das tarefas em suas representações e apresentam menos interferência de gradiente entre tarefas. Em suma, oferecemos uma explicação centrada nos dados de por que modelos maiores aprendem tarefas que modelos menores não conseguem. Isso ajuda a explicar por que modelos maiores são melhores na prática e pode informar questões práticas sobre dimensionamento de modelos e misturas de dados de treinamento.

English

Larger models learn tasks smaller models do not. What drives this phenomenon? We develop a simple phenomenological argument that power-law scaling already suggests that a larger model will be able to learn a part of the data distribution that a smaller model fails to learn, even with infinite training data. To validate this claim and identify its causes, we study the effects of model scaling on a synthetic setup consisting of a mixture of tasks that show monotonic scaling curves. The results point to a data-induced competition over resources (neurons). Specifically, smaller models allocate their neurons to high frequency or low complexity tasks, and so they learn solutions that perform poorly on rare and complex tasks. Moreover, this happens even when solutions capable of expressing the desired task exist. We then assess how a larger model circumvents this data-centric bottleneck, finding that it traces to a reduced interference mechanism: larger models can allocate enough resources to common tasks that the gradient updates for those tasks become weak, which means that they do not overwrite rare-task features as they slowly accumulate. Finally, to further validate these claims, we pretrain OLMo models (4M to 4B parameters) on novel tasks of varying frequency and complexity. The results mirror those from our synthetic data experiments: only the larger OLMo models learn the infrequent and complex tasks, and these larger models embed more task features in their representations and show less gradient interference between tasks. Overall, we offer a data-centric account of why larger models learn tasks that smaller models fail to. This helps explain why larger models are better in practice, and it can inform practical questions concerning model sizing and training data mixtures.