Fortytwo: Schwarm-Inferenz mit peer-bewertetem Konsens

papers.abstract

Da zentralisierte KI an Rechenkapazitätsgrenzen stößt und immer größere Trainingsläufe abnehmende Erträge bringen, erfordert die Bedarfsdeckung eine Inferenzschicht, die horizontal in Kapazität und Leistungsfähigkeit skaliert. Wir stellen Fortytwo vor, ein neuartiges Protokoll, das Schwarmintelligenz-Prinzipien und verteilten paarweisen Ranking-Konsens nutzt, um überlegene Leistung bei der KI-Inferenz zu erzielen. Unser Ansatz überdenkt die Zusammenarbeit zwischen KI-Knoten mittels Schwarminferenz: einem peer-bewerteten, reputationsgewichteten Konsens über heterogene Modelle hinweg, der die qualitativ hochwertigsten Antworten ermittelt. Unter Verwendung von paarweisem Ranking mit einem maßgeschneiderten Bradley-Terry-Aggregationsmodell zeigen wir, dass Schwarminferenz Mehrheitsabstimmungen deutlich übertrifft – es erzielt 85,90 % auf GPQA Diamond gegenüber 68,69 % bei Mehrheitsabstimmung mit demselben Modellsatz, eine Verbesserung um +17,21 Prozentpunkte (relativ circa +25,1 %). Das Protokoll integriert On-Chain-Reputation, sodass der Knoteneinfluss sich anhand erwiesener Genauigkeit anpasst, was einen meritokratischen Konsens ergibt, der qualitativ minderwertige oder böswillige Teilnehmer herausfiltert. Um Sybil-Angriffen zu widerstehen, setzt Fortytwo Proof-of-Capability in seinem Konsens ein: Knoten müssen Kalibrierungs-/Testanfragen erfolgreich abschließen und Reputation hinterlegen, um an Ranking-Runden teilzunehmen, was Multi-Identitäts-Angriffe wirtschaftlich unattraktiv macht, während Offenheit erhalten bleibt. Über sechs anspruchsvolle Benchmarks hinweg, darunter GPQA Diamond, LiveCodeBench und AIME, zeigt unsere Auswertung höhere Genauigkeit und starke Resilienz gegenüber adversariellen und verrauschten Free-Form-Prompts (z.B. Prompt-Injection-Verschlechterung von nur 0,12 % gegenüber 6,20 % bei einem monolithischen Einzelmodell-Baseline), bei gleichzeitig praktischer Implementierbarkeit. Zusammengenommen legen diese Ergebnisse ein Fundament für dezentralisierte KI-Systeme – sie demokratisieren den Zugang zu hochwertiger Inferenz durch kollektive Intelligenz, ohne Zuverlässigkeit oder Sicherheit zu opfern.

English

As centralized AI hits compute ceilings and diminishing returns from ever-larger training runs, meeting demand requires an inference layer that scales horizontally in both capacity and capability. We present Fortytwo, a novel protocol that leverages swarm intelligence principles and distributed pairwise ranking consensus to achieve superior performance in AI inference. Our approach reimagines collaboration among AI nodes using swarm inference: a peer-ranked, reputation-weighted consensus across heterogeneous models that surfaces the highest-quality responses. Using pairwise ranking with a custom Bradley-Terry-style aggregation model, we demonstrate that swarm inference substantially outperforms majority voting, achieving 85.90% on GPQA Diamond versus 68.69% for majority voting with the same model set - an improvement of +17.21 percentage points (approximately +25.1% relative). The protocol incorporates on-chain reputation so node influence adapts to demonstrated accuracy over time, yielding a meritocratic consensus that filters low-quality or malicious participants. To resist Sybil attacks, Fortytwo employs proof-of-capability in its consensus: nodes must successfully complete calibration/test requests and stake reputation to enter ranking rounds, making multi-identity attacks economically unattractive while preserving openness. Across six challenging benchmarks, including GPQA Diamond, LiveCodeBench, and AIME, our evaluation indicates higher accuracy and strong resilience to adversarial and noisy free-form prompting (e.g., prompt-injection degradation of only 0.12% versus 6.20% for a monolithic single-model baseline), while retaining practical deployability. Together, these results establish a foundation for decentralized AI systems - democratizing access to high-quality inference through collective intelligence without sacrificing reliability or security.

Fortytwo: Schwarm-Inferenz mit peer-bewertetem Konsens

Fortytwo: Swarm Inference with Peer-Ranked Consensus

papers.abstract

Support