Neuronale Dickichte: Vielfältige Aufgabenexperten sind dicht um vortrainierte Gewichte verteilt

Zusammenfassung

Das Pre-Training erzeugt einen gelernten Parametervektor, der typischerweise als Ausgangspunkt für weitere iterative Anpassungen dient. In dieser Arbeit betrachten wir das Ergebnis des Pre-Trainings stattdessen als eine Verteilung über Parametervektoren, deren Träger bereits aufgabenspezifische Experten enthält. Wir zeigen, dass bei kleinen Modellen solche Expertenlösungen einen vernachlässigbaren Bruchteil des Volumens dieser Verteilung einnehmen, was ihre Entdeckung von strukturierten Optimierungsmethoden wie Gradientenabstieg abhängig macht. Im Gegensatz dazu nimmt die Dichte der Aufgabenexperten in großen, gut vortrainierten Modellen dramatisch zu, sodass diverse, aufgabenverbessernde Spezialisten einen erheblichen Teil der Umgebung um die vortrainierten Gewichte bevölkern. Motiviert durch diese Perspektive untersuchen wir eine einfache, vollständig parallele Nachtrainingsmethode, die N Parameterstörungen zufällig abtastet, die besten K auswählt und Vorhersagen per Mehrheitsentscheid kombiniert. Trotz ihrer Einfachheit ist dieser Ansatz wettbewerbsfähig mit Standard-Nachtrainingsmethoden wie PPO, GRPO und ES für moderne großskalige Modelle.

English

Pretraining produces a learned parameter vector that is typically treated as a starting point for further iterative adaptation. In this work, we instead view the outcome of pretraining as a distribution over parameter vectors, whose support already contains task-specific experts. We show that in small models such expert solutions occupy a negligible fraction of the volume of this distribution, making their discovery reliant on structured optimization methods such as gradient descent. In contrast, in large, well-pretrained models the density of task-experts increases dramatically, so that diverse, task-improving specialists populate a substantial fraction of the neighborhood around the pretrained weights. Motivated by this perspective, we explore a simple, fully parallel post-training method that samples N parameter perturbations at random, selects the top K, and ensembles predictions via majority vote. Despite its simplicity, this approach is competitive with standard post-training methods such as PPO, GRPO, and ES for contemporary large-scale models.

Neuronale Dickichte: Vielfältige Aufgabenexperten sind dicht um vortrainierte Gewichte verteilt

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

Zusammenfassung

Support