Família Darwin: Fusão Evolutiva Ponderada por Confiança MRI para Escalonamento Sem Treinamento do Raciocínio de Modelo de Linguagem
Darwin Family: MRI-Trust-Weighted Evolutionary Merging for Training-Free Scaling of Language-Model Reasoning
May 14, 2026
Autores: Taebong Kim, Youngsik Hong, Minsik Kim, Sunyoung Choi, Jaewon Jang, Junghoon Shin, Minseo Kim
cs.AI
Resumo
Apresentamos a Darwin Family, uma estrutura para fusão evolucionária sem treinamento de grandes modelos de linguagem via recombinação no espaço de pesos sem gradientes. Investigamos se o desempenho de raciocínio de nível avançado pode ser melhorado sem treinamento adicional, reorganizando capacidades latentes já codificadas em checkpoints existentes. A Darwin introduz três ideias-chave: (i) um genoma de fusão adaptativo de 14 dimensões que permite recombinação refinada em nível de componente e bloco; (ii) a Fusão MRI-Trust, que equilibra adaptativamente sinais de importância de camada diagnóstica com busca evolucionária por meio de um parâmetro de confiança aprendível; e (iii) um Mapeador de Arquitetura que possibilita o cruzamento entre arquiteturas heterogêneas de famílias de modelos distintas. Empiricamente, o modelo principal Darwin-27B-Opus alcança 86,9% no GPQA Diamond, ocupando a 6ª posição entre 1.252 modelos avaliados, superando seu modelo de base totalmente treinado sem qualquer treinamento baseado em gradientes. Em escalas de 4B a 35B parâmetros, os modelos Darwin melhoram consistentemente em relação aos seus progenitores, suportam evolução recursiva multigeracional e possibilitam uma fusão evolucionária sem treinamento que combina componentes baseados em Transformer e Mamba. Em conjunto, a Darwin Family demonstra que a fusão evolucionária guiada por diagnósticos é uma alternativa prática e reproduzível aos dispendiosos pipelines de pós-treinamento para modelos de linguagem centrados em raciocínio.
English
We present Darwin Family, a framework for training-free evolutionary merging of large language models via gradient-free weight-space recombination. We ask whether frontier-level reasoning performance can be improved without additional training, by reorganizing latent capabilities already encoded in existing checkpoints. Darwin introduces three key ideas: (i) a 14-dimensional adaptive merge genome enabling fine-grained component- and block-level recombination; (ii) MRI-Trust Fusion, which adaptively balances diagnostic layer-importance signals with evolutionary search through a learnable trust parameter; and (iii) an Architecture Mapper that enables cross-architecture breeding between heterogeneous model families. Empirically, the flagship Darwin-27B-Opus achieves 86.9% on GPQA Diamond, ranking #6 among 1,252 evaluated models, and outperforming its fully trained foundation model without any gradient-based training. Across scales from 4B to 35B parameters, Darwin models consistently improve over their parents, support recursive multi-generation evolution, and enable a training-free evolutionary merge that combines Transformer- and Mamba-based components. Together, the Darwin Family demonstrates that diagnostic-guided evolutionary merging is a practical and reproducible alternative to costly post-training pipelines for reasoning-centric language models.