Famille Darwin : Fusion évolutionnaire pondérée par la confiance MRI pour la mise à l'échelle sans entraînement du raisonnement des modèles de langage

Résumé

Nous présentons Darwin Family, un cadre pour la fusion évolutive sans entraînement de grands modèles de langage via une recombinaison sans gradient dans l’espace des poids. Nous nous demandons si la performance de raisonnement de pointe peut être améliorée sans entraînement supplémentaire, en réorganisant les capacités latentes déjà encodées dans les points de contrôle existants. Darwin introduit trois idées clés : (i) un génome de fusion adaptatif à 14 dimensions permettant une recombinaison fine au niveau des composants et des blocs ; (ii) la fusion MRI-Trust, qui équilibre de manière adaptative les signaux diagnostiques d’importance des couches avec la recherche évolutive via un paramètre de confiance apprenable ; et (iii) un Mapper d’Architecture qui permet le croisement inter-architectures entre familles de modèles hétérogènes. Empiriquement, le modèle phare Darwin-27B-Opus atteint 86,9 % sur GPQA Diamond, se classant 6e parmi 1 252 modèles évalués, et surpassant son modèle de base entièrement entraîné sans aucun entraînement basé sur le gradient. À travers des échelles allant de 4B à 35B paramètres, les modèles Darwin s’améliorent systématiquement par rapport à leurs parents, supportent une évolution récursive multi-génération et permettent une fusion évolutive sans entraînement combinant des composants basés sur Transformer et Mamba. Ensemble, la famille Darwin démontre que la fusion évolutive guidée par diagnostic est une alternative pratique et reproductible aux pipelines coûteux de post-entraînement pour les modèles de langage centrés sur le raisonnement.

English

We present Darwin Family, a framework for training-free evolutionary merging of large language models via gradient-free weight-space recombination. We ask whether frontier-level reasoning performance can be improved without additional training, by reorganizing latent capabilities already encoded in existing checkpoints. Darwin introduces three key ideas: (i) a 14-dimensional adaptive merge genome enabling fine-grained component- and block-level recombination; (ii) MRI-Trust Fusion, which adaptively balances diagnostic layer-importance signals with evolutionary search through a learnable trust parameter; and (iii) an Architecture Mapper that enables cross-architecture breeding between heterogeneous model families. Empirically, the flagship Darwin-27B-Opus achieves 86.9% on GPQA Diamond, ranking #6 among 1,252 evaluated models, and outperforming its fully trained foundation model without any gradient-based training. Across scales from 4B to 35B parameters, Darwin models consistently improve over their parents, support recursive multi-generation evolution, and enable a training-free evolutionary merge that combines Transformer- and Mamba-based components. Together, the Darwin Family demonstrates that diagnostic-guided evolutionary merging is a practical and reproducible alternative to costly post-training pipelines for reasoning-centric language models.