Fortytwo: Schwarm-Inferenz mit peer-bewertetem Konsens
Fortytwo: Swarm Inference with Peer-Ranked Consensus
October 27, 2025
papers.authors: Vladyslav Larin, Ihor Naumenko, Aleksei Ivashov, Ivan Nikitin, Alexander Firsov
cs.AI
papers.abstract
Da zentralisierte KI an Rechenkapazitätsgrenzen stößt und immer größere Trainingsläufe abnehmende Erträge bringen, erfordert die Bedarfsdeckung eine Inferenzschicht, die horizontal in Kapazität und Leistungsfähigkeit skaliert. Wir stellen Fortytwo vor, ein neuartiges Protokoll, das Schwarmintelligenz-Prinzipien und verteilten paarweisen Ranking-Konsens nutzt, um überlegene Leistung bei der KI-Inferenz zu erzielen. Unser Ansatz überdenkt die Zusammenarbeit zwischen KI-Knoten mittels Schwarminferenz: einem peer-bewerteten, reputationsgewichteten Konsens über heterogene Modelle hinweg, der die qualitativ hochwertigsten Antworten ermittelt. Unter Verwendung von paarweisem Ranking mit einem maßgeschneiderten Bradley-Terry-Aggregationsmodell zeigen wir, dass Schwarminferenz Mehrheitsabstimmungen deutlich übertrifft – es erzielt 85,90 % auf GPQA Diamond gegenüber 68,69 % bei Mehrheitsabstimmung mit demselben Modellsatz, eine Verbesserung um +17,21 Prozentpunkte (relativ circa +25,1 %). Das Protokoll integriert On-Chain-Reputation, sodass der Knoteneinfluss sich anhand erwiesener Genauigkeit anpasst, was einen meritokratischen Konsens ergibt, der qualitativ minderwertige oder böswillige Teilnehmer herausfiltert. Um Sybil-Angriffen zu widerstehen, setzt Fortytwo Proof-of-Capability in seinem Konsens ein: Knoten müssen Kalibrierungs-/Testanfragen erfolgreich abschließen und Reputation hinterlegen, um an Ranking-Runden teilzunehmen, was Multi-Identitäts-Angriffe wirtschaftlich unattraktiv macht, während Offenheit erhalten bleibt. Über sechs anspruchsvolle Benchmarks hinweg, darunter GPQA Diamond, LiveCodeBench und AIME, zeigt unsere Auswertung höhere Genauigkeit und starke Resilienz gegenüber adversariellen und verrauschten Free-Form-Prompts (z.B. Prompt-Injection-Verschlechterung von nur 0,12 % gegenüber 6,20 % bei einem monolithischen Einzelmodell-Baseline), bei gleichzeitig praktischer Implementierbarkeit. Zusammengenommen legen diese Ergebnisse ein Fundament für dezentralisierte KI-Systeme – sie demokratisieren den Zugang zu hochwertiger Inferenz durch kollektive Intelligenz, ohne Zuverlässigkeit oder Sicherheit zu opfern.
English
As centralized AI hits compute ceilings and diminishing returns from
ever-larger training runs, meeting demand requires an inference layer that
scales horizontally in both capacity and capability. We present Fortytwo, a
novel protocol that leverages swarm intelligence principles and distributed
pairwise ranking consensus to achieve superior performance in AI inference. Our
approach reimagines collaboration among AI nodes using swarm inference: a
peer-ranked, reputation-weighted consensus across heterogeneous models that
surfaces the highest-quality responses. Using pairwise ranking with a custom
Bradley-Terry-style aggregation model, we demonstrate that swarm inference
substantially outperforms majority voting, achieving 85.90% on GPQA Diamond
versus 68.69% for majority voting with the same model set - an improvement of
+17.21 percentage points (approximately +25.1% relative). The protocol
incorporates on-chain reputation so node influence adapts to demonstrated
accuracy over time, yielding a meritocratic consensus that filters low-quality
or malicious participants. To resist Sybil attacks, Fortytwo employs
proof-of-capability in its consensus: nodes must successfully complete
calibration/test requests and stake reputation to enter ranking rounds, making
multi-identity attacks economically unattractive while preserving openness.
Across six challenging benchmarks, including GPQA Diamond, LiveCodeBench, and
AIME, our evaluation indicates higher accuracy and strong resilience to
adversarial and noisy free-form prompting (e.g., prompt-injection degradation
of only 0.12% versus 6.20% for a monolithic single-model baseline), while
retaining practical deployability. Together, these results establish a
foundation for decentralized AI systems - democratizing access to high-quality
inference through collective intelligence without sacrificing reliability or
security.