Neurale Struiken: Diverse Taakexperts Zijn Dicht Geclusterd Rond Voorgetrainde Gewichten

Samenvatting

Pretraining resulteert in een geleerde parametervector die doorgaans wordt beschouwd als een startpunt voor verdere iteratieve aanpassing. In dit werk beschouwen we de uitkomst van pretraining echter als een verdeling over parametervectoren, waarvan de drager reeds taakspecifieke experts bevat. We tonen aan dat dergelijke expertoplossingen in kleine modellen een verwaarloosbaar deel van het volume van deze verdeling innemen, waardoor hun ontdekking afhankelijk is van gestructureerde optimalisatiemethoden zoals gradient descent. Daarentegen neemt de dichtheid van taakexperts in grote, goed voorgetrainde modellen dramatisch toe, zodat diverse, taakverbeterende specialisten een aanzienlijk deel van de omgeving rond de voorgetrainde gewichten bevolken. Gemotiveerd door dit perspectief verkennen we een eenvoudige, volledig parallelle post-trainingmethode die N parameterverstoringen willekeurig bemonstert, de top K selecteert en voorspellingen ensembleert via meerderheidsstemming. Ondanks zijn eenvoud is deze aanpak concurrerend met standaard post-trainingmethoden zoals PPO, GRPO en ES voor hedendaagse grootschalige modellen.

English

Pretraining produces a learned parameter vector that is typically treated as a starting point for further iterative adaptation. In this work, we instead view the outcome of pretraining as a distribution over parameter vectors, whose support already contains task-specific experts. We show that in small models such expert solutions occupy a negligible fraction of the volume of this distribution, making their discovery reliant on structured optimization methods such as gradient descent. In contrast, in large, well-pretrained models the density of task-experts increases dramatically, so that diverse, task-improving specialists populate a substantial fraction of the neighborhood around the pretrained weights. Motivated by this perspective, we explore a simple, fully parallel post-training method that samples N parameter perturbations at random, selects the top K, and ensembles predictions via majority vote. Despite its simplicity, this approach is competitive with standard post-training methods such as PPO, GRPO, and ES for contemporary large-scale models.

Neurale Struiken: Diverse Taakexperts Zijn Dicht Geclusterd Rond Voorgetrainde Gewichten

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

Samenvatting

Support