Fortytwo: Inferencia de Enjambre con Consenso de Rango entre Pares
Fortytwo: Swarm Inference with Peer-Ranked Consensus
October 27, 2025
Autores: Vladyslav Larin, Ihor Naumenko, Aleksei Ivashov, Ivan Nikitin, Alexander Firsov
cs.AI
Resumen
A medida que la IA centralizada alcanza límites de cómputo y rendimientos decrecientes de entrenamientos cada vez más grandes, satisfacer la demanda requiere una capa de inferencia que escale horizontalmente en capacidad y habilidad. Presentamos Fortytwo, un protocolo novedoso que aprovecha los principios de inteligencia de enjambre y un consenso distribuido de ranking por pares para lograr un rendimiento superior en la inferencia de IA. Nuestro enfoque reinventa la colaboración entre nodos de IA mediante la inferencia de enjambre: un consenso ponderado por reputación y clasificado por pares entre modelos heterogéneos que selecciona las respuestas de más alta calidad. Utilizando el ranking por pares con un modelo de agregación personalizado al estilo Bradley-Terry, demostramos que la inferencia de enjambre supera sustancialmente a la votación mayoritaria, logrando un 85.90% en GPQA Diamond frente al 68.69% de la votación mayoritaria con el mismo conjunto de modelos: una mejora de +17.21 puntos porcentuales (aproximadamente +25.1% relativo). El protocolo incorpora reputación en cadena para que la influencia del nodo se adapte a la precisión demostrada con el tiempo, produciendo un consenso meritocrático que filtra a participantes de baja calidad o maliciosos. Para resistir ataques Sybil, Fortytwo emplea prueba de capacidad en su consenso: los nodos deben completar exitosamente solicitudes de calibración/prueba y apostar reputación para ingresar a las rondas de clasificación, haciendo que los ataques de múltiples identidades sean económicamente poco atractivos mientras se preserva la apertura. En seis benchmarks desafiantes, incluyendo GPQA Diamond, LiveCodeBench y AIME, nuestra evaluación indica una mayor precisión y una fuerte resistencia a *prompts* adversarios y ruidosos de forma libre (por ejemplo, una degradación por inyección de *prompts* de solo 0.12% versus 6.20% para una línea base monolítica de un solo modelo), manteniendo al mismo tiempo una capacidad de despliegue práctica. En conjunto, estos resultados establecen una base para sistemas de IA descentralizados, democratizando el acceso a inferencia de alta calidad a través de la inteligencia colectiva sin sacrificar la fiabilidad ni la seguridad.
English
As centralized AI hits compute ceilings and diminishing returns from
ever-larger training runs, meeting demand requires an inference layer that
scales horizontally in both capacity and capability. We present Fortytwo, a
novel protocol that leverages swarm intelligence principles and distributed
pairwise ranking consensus to achieve superior performance in AI inference. Our
approach reimagines collaboration among AI nodes using swarm inference: a
peer-ranked, reputation-weighted consensus across heterogeneous models that
surfaces the highest-quality responses. Using pairwise ranking with a custom
Bradley-Terry-style aggregation model, we demonstrate that swarm inference
substantially outperforms majority voting, achieving 85.90% on GPQA Diamond
versus 68.69% for majority voting with the same model set - an improvement of
+17.21 percentage points (approximately +25.1% relative). The protocol
incorporates on-chain reputation so node influence adapts to demonstrated
accuracy over time, yielding a meritocratic consensus that filters low-quality
or malicious participants. To resist Sybil attacks, Fortytwo employs
proof-of-capability in its consensus: nodes must successfully complete
calibration/test requests and stake reputation to enter ranking rounds, making
multi-identity attacks economically unattractive while preserving openness.
Across six challenging benchmarks, including GPQA Diamond, LiveCodeBench, and
AIME, our evaluation indicates higher accuracy and strong resilience to
adversarial and noisy free-form prompting (e.g., prompt-injection degradation
of only 0.12% versus 6.20% for a monolithic single-model baseline), while
retaining practical deployability. Together, these results establish a
foundation for decentralized AI systems - democratizing access to high-quality
inference through collective intelligence without sacrificing reliability or
security.