Fortytwo: Inferência em Enxame com Consenso Classificado por Pares
Fortytwo: Swarm Inference with Peer-Ranked Consensus
October 27, 2025
Autores: Vladyslav Larin, Ihor Naumenko, Aleksei Ivashov, Ivan Nikitin, Alexander Firsov
cs.AI
Resumo
À medida que a IA centralizada atinge limites computacionais e retornos decrescentes de treinamentos cada vez maiores, atender à demanda requer uma camada de inferência que escale horizontalmente em capacidade e competência. Apresentamos Fortytwo, um protocolo inovador que aproveita princípios de inteligência de enxame e consenso distribuído de classificação pareada para alcançar desempenho superior em inferência de IA. Nossa abordagem reinventa a colaboração entre nós de IA usando a inferência de enxame: um consenso com reputação ponderada e classificação paritária entre modelos heterogêneos que seleciona as respostas de mais alta qualidade. Utilizando classificação pareada com um modelo personalizado de agregação estilo Bradley-Terry, demonstramos que a inferência de enxame supera substancialmente a votação majoritária, alcançando 85,90% no GPQA Diamond contra 68,69% da votação majoritária com o mesmo conjunto de modelos - uma melhoria de +17,21 pontos percentuais (aproximadamente +25,1% em termos relativos). O protocolo incorpora reputação on-chain para que a influência dos nós se adapte à precisão demonstrada ao longo do tempo, produzindo um consenso meritocrático que filtra participantes de baixa qualidade ou maliciosos. Para resistir a ataques Sybil, o Fortytwo emprega prova de capacidade em seu consenso: os nós devem concluir com sucesso solicitações de calibração/teste e apostar reputação para entrar nas rodadas de classificação, tornando ataques de múltiplas identidades economicamente desinteressantes enquanto preserva a abertura. Em seis benchmarks desafiadores, incluindo GPQA Diamond, LiveCodeBench e AIME, nossa avaliação indica maior precisão e forte resiliência a promptos adversariais e ruidosos de forma livre (ex.: degradação por injeção de prompts de apenas 0,12% contra 6,20% para uma baseline monolítica de modelo único), mantendo a implantação prática. Juntos, esses resultados estabelecem uma base para sistemas de IA descentralizados - democratizando o acesso à inferência de alta qualidade através da inteligência coletiva sem sacrificar confiabilidade ou segurança.
English
As centralized AI hits compute ceilings and diminishing returns from
ever-larger training runs, meeting demand requires an inference layer that
scales horizontally in both capacity and capability. We present Fortytwo, a
novel protocol that leverages swarm intelligence principles and distributed
pairwise ranking consensus to achieve superior performance in AI inference. Our
approach reimagines collaboration among AI nodes using swarm inference: a
peer-ranked, reputation-weighted consensus across heterogeneous models that
surfaces the highest-quality responses. Using pairwise ranking with a custom
Bradley-Terry-style aggregation model, we demonstrate that swarm inference
substantially outperforms majority voting, achieving 85.90% on GPQA Diamond
versus 68.69% for majority voting with the same model set - an improvement of
+17.21 percentage points (approximately +25.1% relative). The protocol
incorporates on-chain reputation so node influence adapts to demonstrated
accuracy over time, yielding a meritocratic consensus that filters low-quality
or malicious participants. To resist Sybil attacks, Fortytwo employs
proof-of-capability in its consensus: nodes must successfully complete
calibration/test requests and stake reputation to enter ranking rounds, making
multi-identity attacks economically unattractive while preserving openness.
Across six challenging benchmarks, including GPQA Diamond, LiveCodeBench, and
AIME, our evaluation indicates higher accuracy and strong resilience to
adversarial and noisy free-form prompting (e.g., prompt-injection degradation
of only 0.12% versus 6.20% for a monolithic single-model baseline), while
retaining practical deployability. Together, these results establish a
foundation for decentralized AI systems - democratizing access to high-quality
inference through collective intelligence without sacrificing reliability or
security.