DEI: Diversidad en la Inferencia Evolutiva para la Búsqueda de Calidad-Diversidad

Resumen

Presentamos DEI: Diversity in Evolutionary Inference, un marco distribuido de búsqueda de Calidad-Diversidad (QD) que asigna modelos de lenguaje grandes (LLM) heterogéneos como operadores de mutación en nodos pares que se comunican mediante operaciones colectivas no bloqueantes. A diferencia de la búsqueda paralela homogénea, que replica los sesgos inductivos de un único modelo en todos los trabajadores, DEI trata la prioridad creativa distinta de cada LLM como una fuente complementaria de novedad conductual. Extendiendo el marco Digital Red Queen con DEI, los nodos comparten las soluciones óptimas locales al final de cada ronda para sembrar la población de la siguiente ronda. Esto crea una presión adversarial entre modelos que impulsa la robustez más allá del auto-juego intra-modelo. Evaluado en el dominio de Core War, un punto de referencia de programación competitiva en el que programas guerreros Redcode compiten dentro de una máquina simulada, un conjunto heterogéneo de cuatro nodos (GPT-5.4-mini, Claude Sonnet 4.6, GPT-5.2 y Claude Haiku 4.5) logra un QD-Score de archivo fusionado un 124% más alto (45.90 frente a 20.46) y una cobertura un 28% mayor (80.6% frente al 63.0% de las celdas) que una línea base de un solo nodo con el mismo presupuesto total de llamadas a LLM. El conjunto heterogéneo también supera a un conjunto homogéneo con el mismo presupuesto en QD-Score, cobertura y generalidad de soluciones no vistas en las cuatro familias de modelos. Estos resultados proporcionan la primera evidencia empírica de que la diversidad de modelos, no solo el paralelismo, es el factor clave de la ganancia en la búsqueda QD distribuida basada en LLM.

English

We present DEI: Diversity in Evolutionary Inference, a distributed Quality-Diversity (QD) search framework that assigns heterogeneous large language models (LLMs) as mutation operators across peer nodes communicating with non-blocking collective operations. Unlike homogeneous parallel search, which replicates a single model's inductive biases across all workers, DEI treats each LLM's distinct creative prior as a complementary source of behavioral novelty. Extending the Digital Red Queen framework with DEI, nodes share local optimal solutions at the end of each round to seed the next round's population. This creates cross-model adversarial pressure that drives robustness beyond intra-model self-play. Evaluated on the Core War domain, a competitive programming benchmark in which Redcode warrior programs battle inside a simulated machine, a four-node heterogeneous ensemble (GPT-5.4-mini, Claude Sonnet 4.6, GPT-5.2, and Claude Haiku 4.5) achieves 124 percent higher merged-archive QD-Score (45.90 vs. 20.46) and 28 percent higher coverage (80.6 percent vs. 63.0 percent of cells) than a single-node baseline at equal total LLM-call budget. The heterogeneous ensemble also outperforms an equally-budgeted homogeneous ensemble on QD-Score, coverage, and held-out solution generality across all four model families. These results provide the first empirical evidence that model diversity, not merely parallelism, is the key driver of gain in distributed LLM-based QD search.