DEI: Diversidade na Inferência Evolutiva para Busca de Qualidade-Diversidade

Resumo

Apresentamos DEI: Diversidade em Inferência Evolucionária, uma estrutura de busca distribuída de Qualidade-Diversidade (QD) que designa modelos de linguagem de grande porte (LLMs) heterogêneos como operadores de mutação entre nós pares que se comunicam por meio de operações coletivas não bloqueantes. Diferentemente da busca paralela homogênea, que replica os vieses indutivos de um único modelo em todos os trabalhadores, o DEI trata a priori criativa distinta de cada LLM como uma fonte complementar de novidade comportamental. Estendendo o framework Digital Red Queen com o DEI, os nós compartilham soluções ótimas locais ao final de cada rodada para semear a população da rodada seguinte. Isso gera pressão adversarial entre modelos que impulsiona a robustez além do auto-jogo intra-modelo. Avaliado no domínio Core War, um benchmark de programação competitiva no qual programas guerreiros Redcode batalham dentro de uma máquina simulada, um ensemble heterogêneo de quatro nós (GPT-5.4-mini, Claude Sonnet 4.6, GPT-5.2 e Claude Haiku 4.5) alcança um QD-Score de arquivo mesclado 124% maior (45,90 vs. 20,46) e uma cobertura 28% maior (80,6% vs. 63,0% das células) do que uma linha de base de nó único com orçamento igual de chamadas totais de LLM. O ensemble heterogêneo também supera um ensemble homogêneo com o mesmo orçamento em QD-Score, cobertura e generalidade de soluções retidas em todas as quatro famílias de modelos. Esses resultados fornecem a primeira evidência empírica de que a diversidade entre modelos, e não meramente o paralelismo, é o principal impulsionador do ganho na busca QD distribuída baseada em LLMs.

English

We present DEI: Diversity in Evolutionary Inference, a distributed Quality-Diversity (QD) search framework that assigns heterogeneous large language models (LLMs) as mutation operators across peer nodes communicating with non-blocking collective operations. Unlike homogeneous parallel search, which replicates a single model's inductive biases across all workers, DEI treats each LLM's distinct creative prior as a complementary source of behavioral novelty. Extending the Digital Red Queen framework with DEI, nodes share local optimal solutions at the end of each round to seed the next round's population. This creates cross-model adversarial pressure that drives robustness beyond intra-model self-play. Evaluated on the Core War domain, a competitive programming benchmark in which Redcode warrior programs battle inside a simulated machine, a four-node heterogeneous ensemble (GPT-5.4-mini, Claude Sonnet 4.6, GPT-5.2, and Claude Haiku 4.5) achieves 124 percent higher merged-archive QD-Score (45.90 vs. 20.46) and 28 percent higher coverage (80.6 percent vs. 63.0 percent of cells) than a single-node baseline at equal total LLM-call budget. The heterogeneous ensemble also outperforms an equally-budgeted homogeneous ensemble on QD-Score, coverage, and held-out solution generality across all four model families. These results provide the first empirical evidence that model diversity, not merely parallelism, is the key driver of gain in distributed LLM-based QD search.