ChatPaper.aiChatPaper

포티투: 동료 순위 기반 합의를 통한 군집 추론

Fortytwo: Swarm Inference with Peer-Ranked Consensus

October 27, 2025
저자: Vladyslav Larin, Ihor Naumenko, Aleksei Ivashov, Ivan Nikitin, Alexander Firsov
cs.AI

초록

중앙 집중형 AI가 컴퓨팅 성능의 한계와 대규모 학습 실행의 한계 수익에 직면하면서 수요를 충족하려면 용량과 성능 모두에서 수평적으로 확장 가능한 추론 계층이 필요합니다. 본 논문에서는 군집 지능 원리와 분산형 쌍별 순위 합의를 활용하여 AI 추론에서 우수한 성능을 달성하는 새로운 프로토콜인 Fortytwo를 제시합니다. 우리의 접근 방식은 이기종 모델 간의 동료 순위 기반 평판 가중 합의를 통해 최고 품질의 응답을 도출하는 '군집 추론'을 통해 AI 노드 간의 협업을 재구성합니다. 맞춤형 Bradley-Terry 방식의 집계 모델을 사용한 쌍별 순위를 통해 군집 추론이 다수결 투표를 크게 능가함을 입증했으며, 동일한 모델 세트를 사용한 GPQA Diamond에서 다수결 투표의 68.69% 대비 85.90%를 달성했습니다. 이는 +17.21% 포인트(약 +25.1% 상대 개선)의 향상입니다. 본 프로토콜은 온체인 평판을 통합하여 노드의 영향력이 시간이 지남에 따라 입증된 정확도에 따라 적응하도록 하여, 저품질 또는 악의적 참여자를 걸러내는 실력주의 합의를 구현합니다. Fortytwo는 사이빌 공격에 대응하기 위해 합의에 '능력 증명'을 적용합니다. 노드는 순위 결정 라운드에 참여하기 위해 캘리브레이션/테스트 요청을 성공적으로 완료하고 평판을 스테이킹해야 하여, 개방성을 유지하면서도 다중 신원 공격을 경제적으로 매력적이지 않게 만듭니다. GPQA Diamond, LiveCodeBench, AIME를 포함한 6가지 까다로운 벤치마크에서의 평가 결과, 우리의 접근 방식이 더 높은 정확도와 적대적/노이즈가 포함된 자유 형식 프롬프트에 대한 강력한 복원력(예: 단일 모델 기준선의 6.20% 대비 프롬프트 인젝션 성능 저하가 0.12%에 불과함)을 보여주면서도 실제 배포 가능성을 유지함을 확인했습니다. 이러한 결과들은 집단 지성을 통해 신뢰성이나 보안을 희생하지 않고 고품질 추론에 대한 접근을 민주화하는 탈중앙화 AI 시스템의 기반을 마련합니다.
English
As centralized AI hits compute ceilings and diminishing returns from ever-larger training runs, meeting demand requires an inference layer that scales horizontally in both capacity and capability. We present Fortytwo, a novel protocol that leverages swarm intelligence principles and distributed pairwise ranking consensus to achieve superior performance in AI inference. Our approach reimagines collaboration among AI nodes using swarm inference: a peer-ranked, reputation-weighted consensus across heterogeneous models that surfaces the highest-quality responses. Using pairwise ranking with a custom Bradley-Terry-style aggregation model, we demonstrate that swarm inference substantially outperforms majority voting, achieving 85.90% on GPQA Diamond versus 68.69% for majority voting with the same model set - an improvement of +17.21 percentage points (approximately +25.1% relative). The protocol incorporates on-chain reputation so node influence adapts to demonstrated accuracy over time, yielding a meritocratic consensus that filters low-quality or malicious participants. To resist Sybil attacks, Fortytwo employs proof-of-capability in its consensus: nodes must successfully complete calibration/test requests and stake reputation to enter ranking rounds, making multi-identity attacks economically unattractive while preserving openness. Across six challenging benchmarks, including GPQA Diamond, LiveCodeBench, and AIME, our evaluation indicates higher accuracy and strong resilience to adversarial and noisy free-form prompting (e.g., prompt-injection degradation of only 0.12% versus 6.20% for a monolithic single-model baseline), while retaining practical deployability. Together, these results establish a foundation for decentralized AI systems - democratizing access to high-quality inference through collective intelligence without sacrificing reliability or security.
PDF21December 2, 2025