ChatPaper.aiChatPaper

Fortytwo: Inferenza in Sciame con Consenso Classificato dai Pari

Fortytwo: Swarm Inference with Peer-Ranked Consensus

October 27, 2025
Autori: Vladyslav Larin, Ihor Naumenko, Aleksei Ivashov, Ivan Nikitin, Alexander Firsov
cs.AI

Abstract

Mentre l’IA centralizzata raggiunge limiti computazionali e rendimenti decrescenti da addestramenti sempre più massicci, soddisfare la domanda richiede un layer di inferenza in grado di scalare orizzontalmente sia in capacità che in competenza. Presentiamo Fortytwo, un protocollo innovativo che sfrutta i principi dell’intelligenza collettiva (swarm intelligence) e un consenso distribuito basato su ranking a coppie per ottenere prestazioni superiori nell’inferenza di IA. Il nostro approccio reimmagina la collaborazione tra nodi di IA attraverso l’inferenza collettiva (swarm inference): un consenso basato su reputazione e ranking tra pari tra modelli eterogenei, che seleziona le risposte di qualità più elevata. Utilizzando un sistema di confronto a coppie con un modello di aggregazione personalizzato di tipo Bradley-Terry, dimostriamo che l’inferenza collettiva supera di gran lunga il voto a maggioranza, raggiungendo l’85,90% su GPQA Diamond rispetto al 68,69% del voto a maggioranza con lo stesso set di modelli – un miglioramento di +17,21 punti percentuali (circa +25,1% in termini relativi). Il protocollo integra una reputazione on-chain, affinché l’influenza dei nodi si adatti nel tempo all’accuratezza dimostrata, producendo un consenso meritocratico che filtra i partecipanti di bassa qualità o malevoli. Per resistere ad attacchi Sybil, Fortytwo utilizza una proof-of-capability nel suo meccanismo di consenso: i nodi devono completare con successo richieste di calibrazione/test e impegnare reputazione per partecipare ai round di ranking, rendendo gli attacchi multi-identità economicamente svantaggiosi pur preservando l’apertura del sistema. Su sei benchmark complessi, tra cui GPQA Diamond, LiveCodeBench e AIME, la nostra valutazione indica una maggiore accuratezza e una forte resilienza a prompt liberi avversativi o rumorosi (ad esempio, un degrado da prompt injection di solo lo 0,12% rispetto al 6,20% di un baseline monolitico a singolo modello), mantenendo al contempo una praticità di deployment. Nel complesso, questi risultati pongono le basi per sistemi di IA decentralizzati – democratizzando l’accesso a inferenze di alta qualità attraverso l’intelligenza collettiva, senza sacrificare affidabilità o sicurezza.
English
As centralized AI hits compute ceilings and diminishing returns from ever-larger training runs, meeting demand requires an inference layer that scales horizontally in both capacity and capability. We present Fortytwo, a novel protocol that leverages swarm intelligence principles and distributed pairwise ranking consensus to achieve superior performance in AI inference. Our approach reimagines collaboration among AI nodes using swarm inference: a peer-ranked, reputation-weighted consensus across heterogeneous models that surfaces the highest-quality responses. Using pairwise ranking with a custom Bradley-Terry-style aggregation model, we demonstrate that swarm inference substantially outperforms majority voting, achieving 85.90% on GPQA Diamond versus 68.69% for majority voting with the same model set - an improvement of +17.21 percentage points (approximately +25.1% relative). The protocol incorporates on-chain reputation so node influence adapts to demonstrated accuracy over time, yielding a meritocratic consensus that filters low-quality or malicious participants. To resist Sybil attacks, Fortytwo employs proof-of-capability in its consensus: nodes must successfully complete calibration/test requests and stake reputation to enter ranking rounds, making multi-identity attacks economically unattractive while preserving openness. Across six challenging benchmarks, including GPQA Diamond, LiveCodeBench, and AIME, our evaluation indicates higher accuracy and strong resilience to adversarial and noisy free-form prompting (e.g., prompt-injection degradation of only 0.12% versus 6.20% for a monolithic single-model baseline), while retaining practical deployability. Together, these results establish a foundation for decentralized AI systems - democratizing access to high-quality inference through collective intelligence without sacrificing reliability or security.
PDF21December 2, 2025