Нейронные заросли: Эксперты для различных задач плотно сосредоточены вокруг предобученных весов

Аннотация

Предобучение формирует вектор изученных параметров, который обычно рассматривается как отправная точка для последующей итеративной адаптации. В данной работе мы предлагаем альтернативный взгляд, рассматривая результат предобучения как распределение над векторами параметров, носитель которого уже содержит экспертные решения для конкретных задач. Мы показываем, что в небольших моделях такие экспертные решения занимают ничтожную долю объёма этого распределения, что делает их обнаружение зависимым от структурированных методов оптимизации, таких как градиентный спуск. Напротив, в крупных, хорошо предобученных моделях плотность экспертных решений резко возрастает, так что разнообразные специализированные решения, улучшающие выполнение задач, заполняют значительную часть окрестности предобученных весов. Руководствуясь этим подходом, мы исследуем простой, полностью параллельный метод постобработки, который случайным образом выбирает N возмущений параметров, отбирает K лучших и усредняет предсказания с помощью мажоритарного голосования. Несмотря на свою простоту, данный метод конкурирует со стандартными методами постобработки, такими как PPO, GRPO и ES, для современных крупномасштабных моделей.

English

Pretraining produces a learned parameter vector that is typically treated as a starting point for further iterative adaptation. In this work, we instead view the outcome of pretraining as a distribution over parameter vectors, whose support already contains task-specific experts. We show that in small models such expert solutions occupy a negligible fraction of the volume of this distribution, making their discovery reliant on structured optimization methods such as gradient descent. In contrast, in large, well-pretrained models the density of task-experts increases dramatically, so that diverse, task-improving specialists populate a substantial fraction of the neighborhood around the pretrained weights. Motivated by this perspective, we explore a simple, fully parallel post-training method that samples N parameter perturbations at random, selects the top K, and ensembles predictions via majority vote. Despite its simplicity, this approach is competitive with standard post-training methods such as PPO, GRPO, and ES for contemporary large-scale models.

Нейронные заросли: Эксперты для различных задач плотно сосредоточены вокруг предобученных весов

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

Аннотация

Support