DEI: Diversiteit in Evolutionaire Inferentie voor Quality-Diversity Search

Samenvatting

Wij presenteren DEI: Diversiteit in Evolutionaire Inferentie, een gedistribueerd Quality-Diversity (QD)-zoekraamwerk dat heterogene grote taalmodellen (LLM's) als mutatieoperatoren toewijst over peerknooppunten die communiceren via niet-blokkerende collectieve operaties. In tegenstelling tot homogeen parallel zoeken, dat de inductieve biases van één enkel model repliceert over alle workers, behandelt DEI elk uniek creatief prior van een LLM als een complementaire bron van gedragsnieuwheid. Door het Digital Red Queen-raamwerk met DEI uit te breiden, delen knooppunten aan het einde van elke ronde lokale optimale oplossingen om de populatie van de volgende ronde te bezaaien. Dit creëert een cross-model adversariële druk die robuustheid stimuleert die verder gaat dan intra-model zelfspel. Geëvalueerd op het Core War-domein, een competitieve programmeerbenchmark waarin Redcode-krijgerprogramma's strijden in een gesimuleerde machine, behaalt een heterogeen ensemble van vier knooppunten (GPT-5.4-mini, Claude Sonnet 4.6, GPT-5.2 en Claude Haiku 4.5) een 124 procent hogere gemengde-archief QD-Score (45,90 vs. 20,46) en 28 procent hogere dekking (80,6 procent vs. 63,0 procent van de cellen) dan een baseline met één knooppunt bij gelijk totaal LLM-aanroepbudget. Het heterogene ensemble overtreft ook een gelijk gebudgetteerd homogeen ensemble op QD-Score, dekking en uitgesloten oplossingsgeneraliteit over alle vier de modelfamilies. Deze resultaten leveren het eerste empirische bewijs dat modeldiversiteit, niet slechts parallelisme, de belangrijkste drijver is van winst in gedistribueerd LLM-gebaseerd QD-zoeken.

English

We present DEI: Diversity in Evolutionary Inference, a distributed Quality-Diversity (QD) search framework that assigns heterogeneous large language models (LLMs) as mutation operators across peer nodes communicating with non-blocking collective operations. Unlike homogeneous parallel search, which replicates a single model's inductive biases across all workers, DEI treats each LLM's distinct creative prior as a complementary source of behavioral novelty. Extending the Digital Red Queen framework with DEI, nodes share local optimal solutions at the end of each round to seed the next round's population. This creates cross-model adversarial pressure that drives robustness beyond intra-model self-play. Evaluated on the Core War domain, a competitive programming benchmark in which Redcode warrior programs battle inside a simulated machine, a four-node heterogeneous ensemble (GPT-5.4-mini, Claude Sonnet 4.6, GPT-5.2, and Claude Haiku 4.5) achieves 124 percent higher merged-archive QD-Score (45.90 vs. 20.46) and 28 percent higher coverage (80.6 percent vs. 63.0 percent of cells) than a single-node baseline at equal total LLM-call budget. The heterogeneous ensemble also outperforms an equally-budgeted homogeneous ensemble on QD-Score, coverage, and held-out solution generality across all four model families. These results provide the first empirical evidence that model diversity, not merely parallelism, is the key driver of gain in distributed LLM-based QD search.