Darwin-Familie: MRI-vertrauensgewichtete evolutionäre Verschmelzung zum trainingsfreien Skalieren von Sprachmodell-Schlussfolgerungen

Zusammenfassung

Wir stellen Darwin Family vor, ein Framework für trainingsfreie evolutionäre Fusion großer Sprachmodelle mittels gradientenfreier Gewichtsraum-Rekombination. Wir untersuchen, ob sich Spitzenleistungen im logischen Denken ohne zusätzliches Training verbessern lassen, indem latente Fähigkeiten, die bereits in bestehenden Checkpoints kodiert sind, neu organisiert werden. Darwin führt drei zentrale Ideen ein: (i) ein 14-dimensionales adaptives Fusionsgenom, das eine feinkörnige Rekombination auf Komponenten- und Blockebene ermöglicht; (ii) MRI-Trust-Fusion, die diagnostische Signale zur Schichtwichtigkeit mit evolutionärer Suche durch einen lernbaren Vertrauensparameter adaptiv ausbalanciert; und (iii) einen Architektur-Mapper, der architekturübergreifende Kreuzungen zwischen heterogenen Modellfamilien ermöglicht. Empirisch erreicht das Flaggschiff Darwin-27B-Opus 86,9 % auf GPQA Diamond, belegt Platz 6 unter 1.252 bewerteten Modellen und übertrifft sein vollständig trainiertes Basismodell ohne jegliches gradientenbasiertes Training. Über Skalen von 4B bis 35B Parametern hinweg verbessern Darwin-Modelle konsistent ihre Elternmodelle, unterstützen rekursive Multi-Generations-Evolution und ermöglichen eine trainingsfreie evolutionäre Fusion, die Transformer- und Mamba-basierte Komponenten kombiniert. Insgesamt demonstriert die Darwin Family, dass diagnostikgesteuerte evolutionäre Fusion eine praktikable und reproduzierbare Alternative zu kostspieligen Post-Training-Pipelines für auf logisches Denken fokussierte Sprachmodelle darstellt.

English

We present Darwin Family, a framework for training-free evolutionary merging of large language models via gradient-free weight-space recombination. We ask whether frontier-level reasoning performance can be improved without additional training, by reorganizing latent capabilities already encoded in existing checkpoints. Darwin introduces three key ideas: (i) a 14-dimensional adaptive merge genome enabling fine-grained component- and block-level recombination; (ii) MRI-Trust Fusion, which adaptively balances diagnostic layer-importance signals with evolutionary search through a learnable trust parameter; and (iii) an Architecture Mapper that enables cross-architecture breeding between heterogeneous model families. Empirically, the flagship Darwin-27B-Opus achieves 86.9% on GPQA Diamond, ranking #6 among 1,252 evaluated models, and outperforming its fully trained foundation model without any gradient-based training. Across scales from 4B to 35B parameters, Darwin models consistently improve over their parents, support recursive multi-generation evolution, and enable a training-free evolutionary merge that combines Transformer- and Mamba-based components. Together, the Darwin Family demonstrates that diagnostic-guided evolutionary merging is a practical and reproducible alternative to costly post-training pipelines for reasoning-centric language models.