La pénalité cognitive : ablation du raisonnement de type 1 et de type 2 dans les SLM natifs en périphérie pour un consensus décentralisé

Résumé

Les organisations autonomes décentralisées (DAO) ont tendance à explorer les petits modèles de langage (SLM) en tant que pare-feux constitutionnels natifs en périphérie de réseau pour examiner les propositions et atténuer l'ingénierie sociale sémantique. Bien que la mise à l'échelle du calcul à l'inférence (Système 2) améliore la logique formelle, son efficacité dans des environnements de gouvernance cryptéconomique hautement adversariaux reste sous-étudiée. Pour y remédier, nous présentons Sentinel-Bench, un cadre empirique de 840 inférences exécutant une ablation intra-modèle stricte sur Qwen-3.5-9B. En activant/désactivant le raisonnement latent sur des poids gelés, nous isolons l'impact du calcul à l'inférence sur un jeu de données adversariales d'Optimism DAO. Nos résultats révèlent une inversion sévère entre calcul et précision. La baseline autorégressive (Système 1) a atteint une robustesse adversarialede 100 %, une cohérence juridique de 100 % et une finalité d'état en moins de 13 secondes. À l'inverse, le raisonnement du Système 2 a introduit une instabilité catastrophique, fondamentalement causée par un taux de 26,7 % de non-convergence du raisonnement (effondrement cognitif). Cet effondrement a dégradé la stabilité du consensus essai-à-essai à 72,6 % et a imposé une surcharge de latence de 17x, introduisant des vulnérabilités critiques pour la valeur extractible de gouvernance (GEV) et la centralisation matérielle. Bien que rare (1,5 % des essais adversariaux), nous avons empiriquement capturé une "sycophantie induite par le raisonnement", où le modèle générait des monologues internes significativement plus longs (moyenne de 25 750 caractères) pour rationaliser l'échec face au piège adversarial. Nous concluons que pour les SLM natifs en périphérie opérant sous des contraintes de tolérance aux pannes byzantines (BFT), l'intuition paramétrée du Système 1 est structurellement et économiquement supérieure à la délibération itérative du Système 2 pour le consensus décentralisé. Code et jeu de données : https://github.com/smarizvi110/sentinel-bench

English

Decentralized Autonomous Organizations (DAOs) are inclined explore Small Language Models (SLMs) as edge-native constitutional firewalls to vet proposals and mitigate semantic social engineering. While scaling inference-time compute (System 2) enhances formal logic, its efficacy in highly adversarial, cryptoeconomic governance environments remains underexplored. To address this, we introduce Sentinel-Bench, an 840-inference empirical framework executing a strict intra-model ablation on Qwen-3.5-9B. By toggling latent reasoning across frozen weights, we isolate the impact of inference-time compute against an adversarial Optimism DAO dataset. Our findings reveal a severe compute-accuracy inversion. The autoregressive baseline (System 1) achieved 100% adversarial robustness, 100% juridical consistency, and state finality in under 13 seconds. Conversely, System 2 reasoning introduced catastrophic instability, fundamentally driven by a 26.7% Reasoning Non-Convergence (cognitive collapse) rate. This collapse degraded trial-to-trial consensus stability to 72.6% and imposed a 17x latency overhead, introducing critical vulnerabilities to Governance Extractable Value (GEV) and hardware centralization. While rare (1.5% of adversarial trials), we empirically captured "Reasoning-Induced Sycophancy," where the model generated significantly longer internal monologues (averaging 25,750 characters) to rationalize failing the adversarial trap. We conclude that for edge-native SLMs operating under Byzantine Fault Tolerance (BFT) constraints, System 1 parameterized intuition is structurally and economically superior to System 2 iterative deliberation for decentralized consensus. Code and Dataset: https://github.com/smarizvi110/sentinel-bench

La pénalité cognitive : ablation du raisonnement de type 1 et de type 2 dans les SLM natifs en périphérie pour un consensus décentralisé

The Cognitive Penalty: Ablating System 1 and System 2 Reasoning in Edge-Native SLMs for Decentralized Consensus

Résumé

Support