DEI: Разнообразие в эволюционном выводе для поиска качественного разнообразия

Аннотация

Мы представляем DEI (Diversity in Evolutionary Inference) — распределённый фреймворк для поиска с качественным разнообразием (QD), в котором гетерогенные большие языковые модели (LLM) назначаются в качестве операторов мутации на одноранговых узлах, общающихся с помощью неблокирующих коллективных операций. В отличие от однородного параллельного поиска, который реплицирует индуктивные смещения единственной модели на всех рабочих узлах, DEI рассматривает уникальный креативный приор каждой LLM как дополнительный источник поведенческой новизны. Расширяя фреймворк «Цифровая Красная Королева» с помощью DEI, узлы обмениваются локальными оптимальными решениями в конце каждого раунда, чтобы сформировать популяцию следующего раунда. Это создаёт межмодельное состязательное давление, обеспечивающее устойчивость, превосходящую внутримодельную самоигру. При оценке в области Core War — соревновательном бенчмарке по программированию, в котором программы-воины Redcode сражаются внутри симулированной машины — гетерогенный ансамбль из четырёх узлов (GPT-5.4-mini, Claude Sonnet 4.6, GPT-5.2 и Claude Haiku 4.5) достигает на 124% более высокого показателя QD для объединённого архива (45,90 против 20,46) и на 28% более высокого покрытия (80,6% ячеек против 63,0%) по сравнению с одноузловым базовым вариантом при равном общем бюджете вызовов LLM. Гетерогенный ансамбль также превосходит гомогенный ансамбль с тем же бюджетом по показателю QD, покрытию и обобщаемости решений на отложенных данных для всех четырёх семейств моделей. Эти результаты впервые эмпирически демонстрируют, что разнообразие моделей, а не просто параллелизм, является ключевым фактором выигрыша в распределённом поиске QD на основе LLM.

English

We present DEI: Diversity in Evolutionary Inference, a distributed Quality-Diversity (QD) search framework that assigns heterogeneous large language models (LLMs) as mutation operators across peer nodes communicating with non-blocking collective operations. Unlike homogeneous parallel search, which replicates a single model's inductive biases across all workers, DEI treats each LLM's distinct creative prior as a complementary source of behavioral novelty. Extending the Digital Red Queen framework with DEI, nodes share local optimal solutions at the end of each round to seed the next round's population. This creates cross-model adversarial pressure that drives robustness beyond intra-model self-play. Evaluated on the Core War domain, a competitive programming benchmark in which Redcode warrior programs battle inside a simulated machine, a four-node heterogeneous ensemble (GPT-5.4-mini, Claude Sonnet 4.6, GPT-5.2, and Claude Haiku 4.5) achieves 124 percent higher merged-archive QD-Score (45.90 vs. 20.46) and 28 percent higher coverage (80.6 percent vs. 63.0 percent of cells) than a single-node baseline at equal total LLM-call budget. The heterogeneous ensemble also outperforms an equally-budgeted homogeneous ensemble on QD-Score, coverage, and held-out solution generality across all four model families. These results provide the first empirical evidence that model diversity, not merely parallelism, is the key driver of gain in distributed LLM-based QD search.