Почему большие модели учатся большему: влияние емкости, интерференции и удержания редких задач

Аннотация

Более крупные модели обучаются задачам, которые меньшие модели освоить не могут. Что движет этим явлением? Мы разрабатываем простой феноменологический аргумент, согласно которому степенное масштабирование уже предполагает, что более крупная модель сможет обучиться части распределения данных, которую меньшая модель не может выучить, даже при бесконечном объеме обучающих данных. Чтобы проверить это утверждение и выявить его причины, мы изучаем влияние масштабирования модели на синтетическую установку, состоящую из смеси задач, демонстрирующих монотонные кривые масштабирования. Результаты указывают на обусловленную данными конкуренцию за ресурсы (нейроны). В частности, меньшие модели распределяют свои нейроны в пользу задач с высокой частотой встречаемости или низкой сложностью, и поэтому они находят решения, которые плохо работают на редких и сложных задачах. Более того, это происходит даже тогда, когда существуют решения, способные выразить желаемую задачу. Затем мы оцениваем, как более крупная модель обходит это центрированное на данных узкое место, и обнаруживаем, что это связано с ослабленным механизмом интерференции: более крупные модели могут выделить достаточно ресурсов для общих задач, так что обновления градиентов для этих задач становятся слабыми, а значит они не перезаписывают признаки редких задач по мере их медленного накопления. Наконец, для дальнейшей проверки этих утверждений мы предварительно обучаем модели OLMo (от 4M до 4B параметров) на новых задачах с варьируемой частотой и сложностью. Результаты повторяют те, что были получены в экспериментах с синтетическими данными: только более крупные модели OLMo обучаются нечастым и сложным задачам, и эти более крупные модели встраивают больше признаков задач в свои представления и демонстрируют меньшую градиентную интерференцию между задачами. В целом, мы предлагаем центрированное на данных объяснение того, почему более крупные модели обучаются задачам, которые меньшие модели освоить не могут. Это помогает понять, почему более крупные модели лучше на практике, и может информировать практические вопросы, касающиеся выбора размера модели и состава обучающих данных.

English

Larger models learn tasks smaller models do not. What drives this phenomenon? We develop a simple phenomenological argument that power-law scaling already suggests that a larger model will be able to learn a part of the data distribution that a smaller model fails to learn, even with infinite training data. To validate this claim and identify its causes, we study the effects of model scaling on a synthetic setup consisting of a mixture of tasks that show monotonic scaling curves. The results point to a data-induced competition over resources (neurons). Specifically, smaller models allocate their neurons to high frequency or low complexity tasks, and so they learn solutions that perform poorly on rare and complex tasks. Moreover, this happens even when solutions capable of expressing the desired task exist. We then assess how a larger model circumvents this data-centric bottleneck, finding that it traces to a reduced interference mechanism: larger models can allocate enough resources to common tasks that the gradient updates for those tasks become weak, which means that they do not overwrite rare-task features as they slowly accumulate. Finally, to further validate these claims, we pretrain OLMo models (4M to 4B parameters) on novel tasks of varying frequency and complexity. The results mirror those from our synthetic data experiments: only the larger OLMo models learn the infrequent and complex tasks, and these larger models embed more task features in their representations and show less gradient interference between tasks. Overall, we offer a data-centric account of why larger models learn tasks that smaller models fail to. This helps explain why larger models are better in practice, and it can inform practical questions concerning model sizing and training data mixtures.