Intricati Neurali: Esperti di Compiti Diversi Sono Addensati Attorno ai Pesi Pre-addestrati

Abstract

L'addestramento preliminare produce un vettore di parametri appreso che viene tipicamente trattato come punto di partenza per un ulteriore adattamento iterativo. In questo lavoro, consideriamo invece il risultato del pretraining come una distribuzione su vettori di parametri, il cui supporto contiene già esperti specifici per il compito. Dimostriamo che in modelli di piccole dimensioni tali soluzioni esperte occupano una frazione trascurabile del volume di questa distribuzione, rendendo la loro scoperta dipendente da metodi di ottimizzazione strutturati come la discesa del gradiente. Al contrario, in modelli grandi e ben addestrati in modo preliminare, la densità di esperti per il compito aumenta drasticamente, cosicché specialisti diversi e migliorativi per il compito popolano una frazione sostanziale dell'intorno dei pesi pretrainati. Motivati da questa prospettiva, esploriamo un semplice metodo di post-training completamente parallelo che campiona N perturbazioni dei parametri in modo casuale, seleziona le prime K, e combina le previsioni tramite voto a maggioranza. Nonostante la sua semplicità, questo approccio è competitivo con i metodi standard di post-training come PPO, GRPO ed ES per i modelli su larga scala contemporanei.

English

Pretraining produces a learned parameter vector that is typically treated as a starting point for further iterative adaptation. In this work, we instead view the outcome of pretraining as a distribution over parameter vectors, whose support already contains task-specific experts. We show that in small models such expert solutions occupy a negligible fraction of the volume of this distribution, making their discovery reliant on structured optimization methods such as gradient descent. In contrast, in large, well-pretrained models the density of task-experts increases dramatically, so that diverse, task-improving specialists populate a substantial fraction of the neighborhood around the pretrained weights. Motivated by this perspective, we explore a simple, fully parallel post-training method that samples N parameter perturbations at random, selects the top K, and ensembles predictions via majority vote. Despite its simplicity, this approach is competitive with standard post-training methods such as PPO, GRPO, and ES for contemporary large-scale models.

Intricati Neurali: Esperti di Compiti Diversi Sono Addensati Attorno ai Pesi Pre-addestrati

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

Abstract

Support