Espessuras Neurais: Especialistas Diversos em Tarefas Estão Densamente Agrupados em Torno de Pesos Pré-treinados

Resumo

O pré-treinamento produz um vetor de parâmetros aprendido que normalmente é tratado como ponto de partida para adaptação iterativa adicional. Neste trabalho, em vez disso, encaramos o resultado do pré-treinamento como uma distribuição sobre vetores de parâmetros, cujo suporte já contém especialistas específicos para tarefas. Demonstramos que, em modelos pequenos, essas soluções especializadas ocupam uma fração insignificante do volume dessa distribuição, tornando sua descoberta dependente de métodos de otimização estruturados, como o gradiente descendente. Em contraste, em modelos grandes e bem pré-treinados, a densidade de especialistas por tarefa aumenta dramaticamente, de modo que diversos especialistas que melhoram o desempenho populam uma fração substancial da vizinhança em torno dos pesos pré-treinados. Motivados por essa perspectiva, exploramos um método simples e totalmente paralelo de pós-treinamento que amostra N perturbações de parâmetros aleatoriamente, seleciona as K melhores e combina as previsões por votação majoritária. Apesar de sua simplicidade, essa abordagem é competitiva com métodos padrão de pós-treinamento, como PPO, GRPO e ES, para modelos contemporâneos de grande escala.

English

Pretraining produces a learned parameter vector that is typically treated as a starting point for further iterative adaptation. In this work, we instead view the outcome of pretraining as a distribution over parameter vectors, whose support already contains task-specific experts. We show that in small models such expert solutions occupy a negligible fraction of the volume of this distribution, making their discovery reliant on structured optimization methods such as gradient descent. In contrast, in large, well-pretrained models the density of task-experts increases dramatically, so that diverse, task-improving specialists populate a substantial fraction of the neighborhood around the pretrained weights. Motivated by this perspective, we explore a simple, fully parallel post-training method that samples N parameter perturbations at random, selects the top K, and ensembles predictions via majority vote. Despite its simplicity, this approach is competitive with standard post-training methods such as PPO, GRPO, and ES for contemporary large-scale models.

Espessuras Neurais: Especialistas Diversos em Tarefas Estão Densamente Agrupados em Torno de Pesos Pré-treinados

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

Resumo

Support