Fortytwo: Zwerminferentie met Peer-Gerangschikte Consensus

Samenvatting

Naarmate gecentraliseerde AI rekencapaciteitsplafonds bereikt en tegenvallende rendementen ziet van steeds grotere trainingsruns, vereist het vervullen van de vraag een inferentielaag die horizontaal schaalt in zowel capaciteit als vermogen. Wij presenteren Fortytwo, een nieuw protocol dat zwermintelligentieprincipes en gedistribueerde paarsgewijze rangschikkingsconsensus benut om superieure prestaties bij AI-inferentie te bereiken. Onze aanpak herdefinieert samenwerking tussen AI-knooppunten met zwerminferentie: een peer-beoordeelde, reputatie-gewogen consensus over heterogene modellen heen die de hoogst-kwalitatieve antwoorden naar voren brengt. Door paarsgewijze rangschikking met een aangepast Bradley-Terry-stijl aggregatiemodel te gebruiken, tonen we aan dat zwerminferentie aanzienlijk beter presteert dan meerderheidsstemmen, met 85,90% op GPQA Diamond versus 68,69% voor meerderheidsstemmen met dezelfde modelset – een verbetering van +17,21 procentpunten (ongeveer +25,1% relatief). Het protocol bevat on-chain reputatie, zodat de invloed van knooppunten zich aanpast aan bewezen nauwkeurigheid over tijd, wat resulteert in een meritocratische consensus die deelnemers van lage kwaliteit of kwaadwillende deelnemers eruit filtert. Om Sybil-aanvallen te weerstaan, gebruikt Fortytwo proof-of-capability in zijn consensus: knooppunten moeten kalibratie/testverzoeken succesvol voltooien en reputatie inzetten om deel te nemen aan rangschikkingsrondes, wat multi-identiteitsaanvallen economisch onaantrekkelijk maakt terwijl openheid behouden blijft. Over zes uitdagende benchmarks, inclusief GPQA Diamond, LiveCodeBench en AIME, wijst onze evaluatie op hogere nauwkeurigheid en sterke veerkracht tegen vijandige en rumoerige free-form prompting (bijvoorbeeld een prompt-injectie degradatie van slechts 0,12% versus 6,20% voor een monolithische single-model baseline), waarbij praktische implementeerbaarheid behouden blijft. Gezamenlijk leggen deze resultaten een fundament voor gedecentraliseerde AI-systemen – door collectieve intelligentie wordt toegang tot hoogwaardige inferentie gedemocratiseerd zonder betrouwbaarheid of veiligheid op te offeren.

English

As centralized AI hits compute ceilings and diminishing returns from ever-larger training runs, meeting demand requires an inference layer that scales horizontally in both capacity and capability. We present Fortytwo, a novel protocol that leverages swarm intelligence principles and distributed pairwise ranking consensus to achieve superior performance in AI inference. Our approach reimagines collaboration among AI nodes using swarm inference: a peer-ranked, reputation-weighted consensus across heterogeneous models that surfaces the highest-quality responses. Using pairwise ranking with a custom Bradley-Terry-style aggregation model, we demonstrate that swarm inference substantially outperforms majority voting, achieving 85.90% on GPQA Diamond versus 68.69% for majority voting with the same model set - an improvement of +17.21 percentage points (approximately +25.1% relative). The protocol incorporates on-chain reputation so node influence adapts to demonstrated accuracy over time, yielding a meritocratic consensus that filters low-quality or malicious participants. To resist Sybil attacks, Fortytwo employs proof-of-capability in its consensus: nodes must successfully complete calibration/test requests and stake reputation to enter ranking rounds, making multi-identity attacks economically unattractive while preserving openness. Across six challenging benchmarks, including GPQA Diamond, LiveCodeBench, and AIME, our evaluation indicates higher accuracy and strong resilience to adversarial and noisy free-form prompting (e.g., prompt-injection degradation of only 0.12% versus 6.20% for a monolithic single-model baseline), while retaining practical deployability. Together, these results establish a foundation for decentralized AI systems - democratizing access to high-quality inference through collective intelligence without sacrificing reliability or security.

Fortytwo: Zwerminferentie met Peer-Gerangschikte Consensus

Fortytwo: Swarm Inference with Peer-Ranked Consensus

Samenvatting

Support