Fourrés neuronaux : les experts spécialisés dans diverses tâches sont denses autour des poids pré-entraînés

Résumé

Le pré-entraînement produit un vecteur de paramètres appris qui est généralement traité comme point de départ pour une adaptation itérative ultérieure. Dans ce travail, nous considérons plutôt le résultat du pré-entraînement comme une distribution sur les vecteurs de paramètres, dont le support contient déjà des experts spécifiques aux tâches. Nous montrons que dans les petits modèles, ces solutions expertes occupent une fraction négligeable du volume de cette distribution, rendant leur découverte dépendante de méthodes d'optimisation structurées comme la descente de gradient. En revanche, dans les grands modèles bien pré-entraînés, la densité d'experts par tâche augmente considérablement, de sorte que des spécialistes diversifiés améliorant les tâches peuplent une fraction substantielle du voisinage des poids pré-entraînés. Motivés par cette perspective, nous explorons une méthode simple et entièrement parallèle de post-traitement qui échantillonne N perturbations de paramètres aléatoirement, sélectionne les K meilleures et assemble les prédictions par vote majoritaire. Malgré sa simplicité, cette approche est compétitive avec les méthodes standards de post-traitement comme PPO, GRPO et ES pour les modèles à grande échelle contemporains.

English

Pretraining produces a learned parameter vector that is typically treated as a starting point for further iterative adaptation. In this work, we instead view the outcome of pretraining as a distribution over parameter vectors, whose support already contains task-specific experts. We show that in small models such expert solutions occupy a negligible fraction of the volume of this distribution, making their discovery reliant on structured optimization methods such as gradient descent. In contrast, in large, well-pretrained models the density of task-experts increases dramatically, so that diverse, task-improving specialists populate a substantial fraction of the neighborhood around the pretrained weights. Motivated by this perspective, we explore a simple, fully parallel post-training method that samples N parameter perturbations at random, selects the top K, and ensembles predictions via majority vote. Despite its simplicity, this approach is competitive with standard post-training methods such as PPO, GRPO, and ES for contemporary large-scale models.

Fourrés neuronaux : les experts spécialisés dans diverses tâches sont denses autour des poids pré-entraînés

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

Résumé

Support