Familia Darwin: Fusión Evolutiva Ponderada por Confianza MRI para el Escalado Sin Entrenamiento del Razonamiento de Modelos de Lenguaje

Resumen

Presentamos Darwin Family, un marco para la fusión evolutiva sin entrenamiento de modelos de lenguaje grandes mediante recombinación en el espacio de pesos sin gradientes. Preguntamos si el rendimiento de razonamiento de vanguardia puede mejorarse sin entrenamiento adicional, reorganizando capacidades latentes ya codificadas en puntos de control existentes. Darwin introduce tres ideas clave: (i) un genoma de fusión adaptativo de 14 dimensiones que permite una recombinación detallada a nivel de componentes y bloques; (ii) Fusión MRI-Trust, que equilibra adaptativamente señales de importancia de capa diagnóstica con búsqueda evolutiva mediante un parámetro de confianza aprendible; y (iii) un Mapeador de Arquitecturas que posibilita el cruce entre arquitecturas de familias de modelos heterogéneas. Empíricamente, el modelo insignia Darwin-27B-Opus alcanza un 86.9% en GPQA Diamond, ocupando el puesto n.º 6 entre 1.252 modelos evaluados, y supera a su modelo fundacional completamente entrenado sin ningún entrenamiento basado en gradientes. En escalas desde 4B hasta 35B parámetros, los modelos Darwin mejoran consistentemente respecto a sus padres, admiten evolución recursiva multigeneracional y permiten una fusión evolutiva sin entrenamiento que combina componentes basados en Transformer y Mamba. En conjunto, la Familia Darwin demuestra que la fusión evolutiva guiada por diagnóstico es una alternativa práctica y reproducible a los costosos procesos posteriores al entrenamiento para modelos de lenguaje centrados en razonamiento.

English

We present Darwin Family, a framework for training-free evolutionary merging of large language models via gradient-free weight-space recombination. We ask whether frontier-level reasoning performance can be improved without additional training, by reorganizing latent capabilities already encoded in existing checkpoints. Darwin introduces three key ideas: (i) a 14-dimensional adaptive merge genome enabling fine-grained component- and block-level recombination; (ii) MRI-Trust Fusion, which adaptively balances diagnostic layer-importance signals with evolutionary search through a learnable trust parameter; and (iii) an Architecture Mapper that enables cross-architecture breeding between heterogeneous model families. Empirically, the flagship Darwin-27B-Opus achieves 86.9% on GPQA Diamond, ranking #6 among 1,252 evaluated models, and outperforming its fully trained foundation model without any gradient-based training. Across scales from 4B to 35B parameters, Darwin models consistently improve over their parents, support recursive multi-generation evolution, and enable a training-free evolutionary merge that combines Transformer- and Mamba-based components. Together, the Darwin Family demonstrates that diagnostic-guided evolutionary merging is a practical and reproducible alternative to costly post-training pipelines for reasoning-centric language models.