Darwin-familie: MRI-vertrouwensgewogen evolutionaire merging voor trainingvrije schaling van taalmodelredeneren

Samenvatting

Wij presenteren Darwin Family, een raamwerk voor trainingsvrije evolutionaire fusie van grote taalmodellen via gradiëntvrije hercombinatie in gewichtsruimte. Wij onderzoeken of redeneerprestaties op frontniveau kunnen worden verbeterd zonder extra training, door latente capaciteiten die reeds in bestaande checkpoints zijn gecodeerd, te reorganiseren. Darwin introduceert drie kernideeën: (i) een 14-dimensionaal adaptief fusiegenoom dat fijnmazige hercombinatie op component- en blokniveau mogelijk maakt; (ii) MRI-Trust Fusion, dat adaptief diagnostische laagbelangsignalen balanceert met evolutionair zoeken via een leerbare vertrouwensparameter; en (iii) een Architecture Mapper die kruisarchitectuur-kruising tussen heterogene modelfamilies mogelijk maakt. Empirisch gezien behaalt het vlaggenschip Darwin-27B-Opus 86,9% op GPQA Diamond, waarmee het op de 6e plaats staat van 1.252 geëvalueerde modellen, en presteert het beter dan zijn volledig getrainde basismodel zonder enige gradiëntgebaseerde training. Over schalen van 4B tot 35B parameters verbeteren Darwin-modellen consequent ten opzichte van hun ouders, ondersteunen ze recursieve multi-generatie-evolutie, en maken ze een trainingsvrije evolutionaire fusie mogelijk die Transformer- en Mamba-gebaseerde componenten combineert. Samen toont de Darwin Family aan dat diagnosesturing evolutionaire fusie een praktisch en reproduceerbaar alternatief is voor dure post-training-pipelines voor redeneergerichte taalmodellen.

English

We present Darwin Family, a framework for training-free evolutionary merging of large language models via gradient-free weight-space recombination. We ask whether frontier-level reasoning performance can be improved without additional training, by reorganizing latent capabilities already encoded in existing checkpoints. Darwin introduces three key ideas: (i) a 14-dimensional adaptive merge genome enabling fine-grained component- and block-level recombination; (ii) MRI-Trust Fusion, which adaptively balances diagnostic layer-importance signals with evolutionary search through a learnable trust parameter; and (iii) an Architecture Mapper that enables cross-architecture breeding between heterogeneous model families. Empirically, the flagship Darwin-27B-Opus achieves 86.9% on GPQA Diamond, ranking #6 among 1,252 evaluated models, and outperforming its fully trained foundation model without any gradient-based training. Across scales from 4B to 35B parameters, Darwin models consistently improve over their parents, support recursive multi-generation evolution, and enable a training-free evolutionary merge that combines Transformer- and Mamba-based components. Together, the Darwin Family demonstrates that diagnostic-guided evolutionary merging is a practical and reproducible alternative to costly post-training pipelines for reasoning-centric language models.