Fortytwo: Коллективный вывод с консенсусом на основе ранжирования участников
Fortytwo: Swarm Inference with Peer-Ranked Consensus
October 27, 2025
Авторы: Vladyslav Larin, Ihor Naumenko, Aleksei Ivashov, Ivan Nikitin, Alexander Firsov
cs.AI
Аннотация
По мере того как централизованный искусственный интеллект упирается в вычислительные ограничения и демонстрирует снижение отдачи от все более масштабных обучающих прогонов, удовлетворение спроса требует уровня логического вывода (inference), который масштабируется горизонтально как по пропускной способности, так и по возможностям. Мы представляем Fortytwo — новый протокол, который использует принципы роевого интеллекта и распределенного консенсуса на основе попарного ранжирования для достижения превосходящей производительности в задачах AI-инференса. Наш подход переосмысливает сотрудничество между AI-узлами с помощью «роевого вывода» (swarm inference): консенсуса с репутационно-взвешенным участием и пиринговым ранжированием разнородных моделей, который выявляет ответы наивысшего качества. Используя попарное ранжирование с агрегацией по модели типа Брэдли-Терри, мы демонстрируем, что роевой вывод существенно превосходит мажоритарное голосование, показывая результат 85,90% на GPQA Diamond против 68,69% у мажоритарного голосования с тем же набором моделей — улучшение на +17,21 процентных пункта (примерно +25,1% в относительном выражении). Протокол включает ончейн-репутацию, так что влияние узла адаптируется к продемонстрированной точности с течением времени, создавая меритократический консенсус, отсеивающий некачественных или злонамеренных участников. Для противодействия атакам Сибил в консенсусе Fortytwo используется доказательство способности (proof-of-capability): узлы должны успешно выполнять калибровочные/тестовые запросы и делать ставку в виде репутации для участия в раундах ранжирования, что делает атаки с использованием множественных идентификаторов экономически невыгодными при сохранении открытости системы. На шести сложных бенчмарках, включая GPQA Diamond, LiveCodeBench и AIME, наша оценка указывает на более высокую точность и устойчивость к адверсарным и зашумленным free-form запросам (например, деградация из-за инъекции промптов составила лишь 0,12% против 6,20% у монолитной модели-одиночки), при сохранении практической пригодности к развертыванию. В совокупности эти результаты закладывают основу для децентрализованных систем ИИ — демократизируя доступ к высококачественному логическому выводу через коллективный интеллект без ущерба для надежности или безопасности.
English
As centralized AI hits compute ceilings and diminishing returns from
ever-larger training runs, meeting demand requires an inference layer that
scales horizontally in both capacity and capability. We present Fortytwo, a
novel protocol that leverages swarm intelligence principles and distributed
pairwise ranking consensus to achieve superior performance in AI inference. Our
approach reimagines collaboration among AI nodes using swarm inference: a
peer-ranked, reputation-weighted consensus across heterogeneous models that
surfaces the highest-quality responses. Using pairwise ranking with a custom
Bradley-Terry-style aggregation model, we demonstrate that swarm inference
substantially outperforms majority voting, achieving 85.90% on GPQA Diamond
versus 68.69% for majority voting with the same model set - an improvement of
+17.21 percentage points (approximately +25.1% relative). The protocol
incorporates on-chain reputation so node influence adapts to demonstrated
accuracy over time, yielding a meritocratic consensus that filters low-quality
or malicious participants. To resist Sybil attacks, Fortytwo employs
proof-of-capability in its consensus: nodes must successfully complete
calibration/test requests and stake reputation to enter ranking rounds, making
multi-identity attacks economically unattractive while preserving openness.
Across six challenging benchmarks, including GPQA Diamond, LiveCodeBench, and
AIME, our evaluation indicates higher accuracy and strong resilience to
adversarial and noisy free-form prompting (e.g., prompt-injection degradation
of only 0.12% versus 6.20% for a monolithic single-model baseline), while
retaining practical deployability. Together, these results establish a
foundation for decentralized AI systems - democratizing access to high-quality
inference through collective intelligence without sacrificing reliability or
security.