Fortytwo : Inférence en essaim avec consensus par classement pair
Fortytwo: Swarm Inference with Peer-Ranked Consensus
October 27, 2025
papers.authors: Vladyslav Larin, Ihor Naumenko, Aleksei Ivashov, Ivan Nikitin, Alexander Firsov
cs.AI
papers.abstract
Alors que l'IA centralisée atteint des limites de calcul et des rendements décroissants avec des entraînements toujours plus grands, répondre à la demande nécessite une couche d'inférence qui s'adapte horizontalement en capacité et en compétence. Nous présentons Fortytwo, un protocole novateur qui exploite les principes de l'intelligence en essaim et un consensus distribué de classement par paires pour obtenir des performances supérieures en inférence IA. Notre approche réinvente la collaboration entre les nœuds d'IA via l'inférence en essaim : un consensus pondéré par la réputation et établi entre pairs à travers des modèles hétérogènes, qui fait émerger les réponses de plus haute qualité. En utilisant le classement par paires avec un modèle d'agrégation personnalisé de type Bradley-Terry, nous démontrons que l'inférence en essaim surpasse substantiellement le vote majoritaire, atteignant 85,90 % sur GPQA Diamond contre 68,69 % pour le vote majoritaire avec le même ensemble de modèles - une amélioration de +17,21 points de pourcentage (environ +25,1 % en relatif). Le protocole intègre une réputation sur chaîne afin que l'influence des nœuds s'ajuste à leur exactitude démontrée au fil du temps, produisant un consensus méritocratique qui filtre les participants de faible qualité ou malveillants. Pour résister aux attaques Sybil, Fortytwo utilise une preuve de capacité dans son consensus : les nœuds doivent accomplir avec succès des requêtes d'étalonnage/de test et engager leur réputation pour participer aux tours de classement, rendant les attaques multi-identités économiquement peu attractives tout en préservant l'ouverture. Sur six benchmarks exigeants, incluant GPQA Diamond, LiveCodeBench et AIME, notre évaluation indique une plus grande exactitude et une forte résilience face aux incitations adverses et bruitées en forme libre (par exemple, une dégradation par injection de prompt de seulement 0,12 % contre 6,20 % pour une base de référence monolithique à modèle unique), tout en conservant une déployabilité pratique. Ensemble, ces résultats établissent une base pour les systèmes d'IA décentralisés - démocratisant l'accès à une inférence de haute qualité via l'intelligence collective sans sacrifier la fiabilité ou la sécurité.
English
As centralized AI hits compute ceilings and diminishing returns from
ever-larger training runs, meeting demand requires an inference layer that
scales horizontally in both capacity and capability. We present Fortytwo, a
novel protocol that leverages swarm intelligence principles and distributed
pairwise ranking consensus to achieve superior performance in AI inference. Our
approach reimagines collaboration among AI nodes using swarm inference: a
peer-ranked, reputation-weighted consensus across heterogeneous models that
surfaces the highest-quality responses. Using pairwise ranking with a custom
Bradley-Terry-style aggregation model, we demonstrate that swarm inference
substantially outperforms majority voting, achieving 85.90% on GPQA Diamond
versus 68.69% for majority voting with the same model set - an improvement of
+17.21 percentage points (approximately +25.1% relative). The protocol
incorporates on-chain reputation so node influence adapts to demonstrated
accuracy over time, yielding a meritocratic consensus that filters low-quality
or malicious participants. To resist Sybil attacks, Fortytwo employs
proof-of-capability in its consensus: nodes must successfully complete
calibration/test requests and stake reputation to enter ranking rounds, making
multi-identity attacks economically unattractive while preserving openness.
Across six challenging benchmarks, including GPQA Diamond, LiveCodeBench, and
AIME, our evaluation indicates higher accuracy and strong resilience to
adversarial and noisy free-form prompting (e.g., prompt-injection degradation
of only 0.12% versus 6.20% for a monolithic single-model baseline), while
retaining practical deployability. Together, these results establish a
foundation for decentralized AI systems - democratizing access to high-quality
inference through collective intelligence without sacrificing reliability or
security.