Matorrales Neuronales: Expertos Diversos en Tareas se Agrupan Densamente alrededor de Pesos Preentrenados

Resumen

El preentrenamiento produce un vector de parámetros aprendido que normalmente se trata como punto de partida para una adaptación iterativa posterior. En este trabajo, en cambio, consideramos el resultado del preentrenamiento como una distribución sobre vectores de parámetros, cuyo soporte ya contiene expertos específicos de tareas. Demostramos que en modelos pequeños dichas soluciones expertas ocupan una fracción insignificante del volumen de esta distribución, haciendo que su descubrimiento dependa de métodos de optimización estructurados como el descenso de gradiente. Por el contrario, en modelos grandes y bien preentrenados, la densidad de expertos por tarea aumenta drásticamente, de modo que especialistas diversos que mejoran el rendimiento pueblan una fracción sustancial de la vecindad alrededor de los pesos preentrenados. Motivados por esta perspectiva, exploramos un método simple de posentrenamiento totalmente paralelo que muestrea N perturbaciones de parámetros al azar, selecciona las K mejores y combina las predicciones mediante voto mayoritario. A pesar de su simplicidad, este enfoque es competitivo con métodos estándar de posentrenamiento como PPO, GRPO y ES para modelos contemporáneos a gran escala.

English

Pretraining produces a learned parameter vector that is typically treated as a starting point for further iterative adaptation. In this work, we instead view the outcome of pretraining as a distribution over parameter vectors, whose support already contains task-specific experts. We show that in small models such expert solutions occupy a negligible fraction of the volume of this distribution, making their discovery reliant on structured optimization methods such as gradient descent. In contrast, in large, well-pretrained models the density of task-experts increases dramatically, so that diverse, task-improving specialists populate a substantial fraction of the neighborhood around the pretrained weights. Motivated by this perspective, we explore a simple, fully parallel post-training method that samples N parameter perturbations at random, selects the top K, and ensembles predictions via majority vote. Despite its simplicity, this approach is competitive with standard post-training methods such as PPO, GRPO, and ES for contemporary large-scale models.

Matorrales Neuronales: Expertos Diversos en Tareas se Agrupan Densamente alrededor de Pesos Preentrenados

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

Resumen

Support