ChatPaper.aiChatPaper

Fortytwo: Inferencia de Enjambre con Consenso de Rango entre Pares

Fortytwo: Swarm Inference with Peer-Ranked Consensus

October 27, 2025
Autores: Vladyslav Larin, Ihor Naumenko, Aleksei Ivashov, Ivan Nikitin, Alexander Firsov
cs.AI

Resumen

A medida que la IA centralizada alcanza límites de cómputo y rendimientos decrecientes de entrenamientos cada vez más grandes, satisfacer la demanda requiere una capa de inferencia que escale horizontalmente en capacidad y habilidad. Presentamos Fortytwo, un protocolo novedoso que aprovecha los principios de inteligencia de enjambre y un consenso distribuido de ranking por pares para lograr un rendimiento superior en la inferencia de IA. Nuestro enfoque reinventa la colaboración entre nodos de IA mediante la inferencia de enjambre: un consenso ponderado por reputación y clasificado por pares entre modelos heterogéneos que selecciona las respuestas de más alta calidad. Utilizando el ranking por pares con un modelo de agregación personalizado al estilo Bradley-Terry, demostramos que la inferencia de enjambre supera sustancialmente a la votación mayoritaria, logrando un 85.90% en GPQA Diamond frente al 68.69% de la votación mayoritaria con el mismo conjunto de modelos: una mejora de +17.21 puntos porcentuales (aproximadamente +25.1% relativo). El protocolo incorpora reputación en cadena para que la influencia del nodo se adapte a la precisión demostrada con el tiempo, produciendo un consenso meritocrático que filtra a participantes de baja calidad o maliciosos. Para resistir ataques Sybil, Fortytwo emplea prueba de capacidad en su consenso: los nodos deben completar exitosamente solicitudes de calibración/prueba y apostar reputación para ingresar a las rondas de clasificación, haciendo que los ataques de múltiples identidades sean económicamente poco atractivos mientras se preserva la apertura. En seis benchmarks desafiantes, incluyendo GPQA Diamond, LiveCodeBench y AIME, nuestra evaluación indica una mayor precisión y una fuerte resistencia a *prompts* adversarios y ruidosos de forma libre (por ejemplo, una degradación por inyección de *prompts* de solo 0.12% versus 6.20% para una línea base monolítica de un solo modelo), manteniendo al mismo tiempo una capacidad de despliegue práctica. En conjunto, estos resultados establecen una base para sistemas de IA descentralizados, democratizando el acceso a inferencia de alta calidad a través de la inteligencia colectiva sin sacrificar la fiabilidad ni la seguridad.
English
As centralized AI hits compute ceilings and diminishing returns from ever-larger training runs, meeting demand requires an inference layer that scales horizontally in both capacity and capability. We present Fortytwo, a novel protocol that leverages swarm intelligence principles and distributed pairwise ranking consensus to achieve superior performance in AI inference. Our approach reimagines collaboration among AI nodes using swarm inference: a peer-ranked, reputation-weighted consensus across heterogeneous models that surfaces the highest-quality responses. Using pairwise ranking with a custom Bradley-Terry-style aggregation model, we demonstrate that swarm inference substantially outperforms majority voting, achieving 85.90% on GPQA Diamond versus 68.69% for majority voting with the same model set - an improvement of +17.21 percentage points (approximately +25.1% relative). The protocol incorporates on-chain reputation so node influence adapts to demonstrated accuracy over time, yielding a meritocratic consensus that filters low-quality or malicious participants. To resist Sybil attacks, Fortytwo employs proof-of-capability in its consensus: nodes must successfully complete calibration/test requests and stake reputation to enter ranking rounds, making multi-identity attacks economically unattractive while preserving openness. Across six challenging benchmarks, including GPQA Diamond, LiveCodeBench, and AIME, our evaluation indicates higher accuracy and strong resilience to adversarial and noisy free-form prompting (e.g., prompt-injection degradation of only 0.12% versus 6.20% for a monolithic single-model baseline), while retaining practical deployability. Together, these results establish a foundation for decentralized AI systems - democratizing access to high-quality inference through collective intelligence without sacrificing reliability or security.
PDF21December 2, 2025