Fortytwo: Inferenza in Sciame con Consenso Classificato dai Pari
Fortytwo: Swarm Inference with Peer-Ranked Consensus
October 27, 2025
Autori: Vladyslav Larin, Ihor Naumenko, Aleksei Ivashov, Ivan Nikitin, Alexander Firsov
cs.AI
Abstract
Mentre l’IA centralizzata raggiunge limiti computazionali e rendimenti decrescenti da addestramenti sempre più massicci, soddisfare la domanda richiede un layer di inferenza in grado di scalare orizzontalmente sia in capacità che in competenza. Presentiamo Fortytwo, un protocollo innovativo che sfrutta i principi dell’intelligenza collettiva (swarm intelligence) e un consenso distribuito basato su ranking a coppie per ottenere prestazioni superiori nell’inferenza di IA. Il nostro approccio reimmagina la collaborazione tra nodi di IA attraverso l’inferenza collettiva (swarm inference): un consenso basato su reputazione e ranking tra pari tra modelli eterogenei, che seleziona le risposte di qualità più elevata. Utilizzando un sistema di confronto a coppie con un modello di aggregazione personalizzato di tipo Bradley-Terry, dimostriamo che l’inferenza collettiva supera di gran lunga il voto a maggioranza, raggiungendo l’85,90% su GPQA Diamond rispetto al 68,69% del voto a maggioranza con lo stesso set di modelli – un miglioramento di +17,21 punti percentuali (circa +25,1% in termini relativi). Il protocollo integra una reputazione on-chain, affinché l’influenza dei nodi si adatti nel tempo all’accuratezza dimostrata, producendo un consenso meritocratico che filtra i partecipanti di bassa qualità o malevoli. Per resistere ad attacchi Sybil, Fortytwo utilizza una proof-of-capability nel suo meccanismo di consenso: i nodi devono completare con successo richieste di calibrazione/test e impegnare reputazione per partecipare ai round di ranking, rendendo gli attacchi multi-identità economicamente svantaggiosi pur preservando l’apertura del sistema. Su sei benchmark complessi, tra cui GPQA Diamond, LiveCodeBench e AIME, la nostra valutazione indica una maggiore accuratezza e una forte resilienza a prompt liberi avversativi o rumorosi (ad esempio, un degrado da prompt injection di solo lo 0,12% rispetto al 6,20% di un baseline monolitico a singolo modello), mantenendo al contempo una praticità di deployment. Nel complesso, questi risultati pongono le basi per sistemi di IA decentralizzati – democratizzando l’accesso a inferenze di alta qualità attraverso l’intelligenza collettiva, senza sacrificare affidabilità o sicurezza.
English
As centralized AI hits compute ceilings and diminishing returns from
ever-larger training runs, meeting demand requires an inference layer that
scales horizontally in both capacity and capability. We present Fortytwo, a
novel protocol that leverages swarm intelligence principles and distributed
pairwise ranking consensus to achieve superior performance in AI inference. Our
approach reimagines collaboration among AI nodes using swarm inference: a
peer-ranked, reputation-weighted consensus across heterogeneous models that
surfaces the highest-quality responses. Using pairwise ranking with a custom
Bradley-Terry-style aggregation model, we demonstrate that swarm inference
substantially outperforms majority voting, achieving 85.90% on GPQA Diamond
versus 68.69% for majority voting with the same model set - an improvement of
+17.21 percentage points (approximately +25.1% relative). The protocol
incorporates on-chain reputation so node influence adapts to demonstrated
accuracy over time, yielding a meritocratic consensus that filters low-quality
or malicious participants. To resist Sybil attacks, Fortytwo employs
proof-of-capability in its consensus: nodes must successfully complete
calibration/test requests and stake reputation to enter ranking rounds, making
multi-identity attacks economically unattractive while preserving openness.
Across six challenging benchmarks, including GPQA Diamond, LiveCodeBench, and
AIME, our evaluation indicates higher accuracy and strong resilience to
adversarial and noisy free-form prompting (e.g., prompt-injection degradation
of only 0.12% versus 6.20% for a monolithic single-model baseline), while
retaining practical deployability. Together, these results establish a
foundation for decentralized AI systems - democratizing access to high-quality
inference through collective intelligence without sacrificing reliability or
security.