Die kognitive Strafe: Ablation von System-1- und System-2-Denken in edge-nativen SLMs für dezentralen Konsens
The Cognitive Penalty: Ablating System 1 and System 2 Reasoning in Edge-Native SLMs for Decentralized Consensus
April 18, 2026
Autoren: Syed Muhammad Aqdas Rizvi
cs.AI
Zusammenfassung
Dezentrale Autonome Organisationen (DAOs) neigen dazu, Small Language Models (SLMs) als edge-native konstitutionelle Firewalls zu erforschen, um Vorschläge zu prüfen und semantische Social-Engineering-Angriffe abzuschwächen. Während die Skalierung von Inferenz-Rechenleistung (System 2) die formale Logik verbessert, ist ihre Wirksamkeit in hochgradig adversarischen, kryptoökonomischen Governance-Umgebungen noch unzureichend erforscht. Um dies zu adressieren, stellen wir Sentinel-Bench vor, einen empirischen 840-Inferenz-Framework, der eine strikte Intra-Modell-Ablation auf Qwen-3.5-9B durchführt. Durch das gezielte Ein- und Ausschalten latenten Schlussfolgerns über gefrorene Gewichte isolieren wir den Einfluss der Inferenz-Rechenleistung anhand eines adversarischen Optimism-DAO-Datensatzes. Unsere Ergebnisse zeigen eine schwerwiegende Umkehrung des Verhältnisses von Rechenaufwand zu Genauigkeit. Die autoregressive Basisversion (System 1) erreichte 100% adversarische Robustheit, 100% juristische Konsistenz und Zustandsfinalität in unter 13 Sekunden. Im Gegensatz dazu führte die System-2-Begründung zu katastrophaler Instabilität, die grundlegend durch eine Reasoning-Non-Convergence-Rate (kognitiver Kollaps) von 26,7 % verursacht wurde. Dieser Kollaps verschlechterte die Konsensstabilität von Versuch zu Versuch auf 72,6 % und verursachte einen 17-fachen Latenz-Overhead, was kritische Verwundbarkeiten für Governance Extractable Value (GEV) und Hardware-Zentralisierung einführte. Obwohl selten (1,5 % der adversarischen Versuche), konnten wir empirisch „Reasoning-Induced Sycophancy“ beobachten, bei der das Modell signifikant längere interne Monologe (durchschnittlich 25.750 Zeichen) generierte, um das Scheitern an der adversarischen Falle zu rationalisieren. Wir kommen zu dem Schluss, dass für edge-native SLMs, die unter Byzantine Fault Tolerance (BFT)-Beschränkungen operieren, die parametrisierte Intuition von System 1 strukturell und ökonomisch der iterativen Deliberation von System 2 für dezentralen Konsens überlegen ist.
Code und Datensatz: https://github.com/smarizvi110/sentinel-bench
English
Decentralized Autonomous Organizations (DAOs) are inclined explore Small Language Models (SLMs) as edge-native constitutional firewalls to vet proposals and mitigate semantic social engineering. While scaling inference-time compute (System 2) enhances formal logic, its efficacy in highly adversarial, cryptoeconomic governance environments remains underexplored. To address this, we introduce Sentinel-Bench, an 840-inference empirical framework executing a strict intra-model ablation on Qwen-3.5-9B. By toggling latent reasoning across frozen weights, we isolate the impact of inference-time compute against an adversarial Optimism DAO dataset. Our findings reveal a severe compute-accuracy inversion. The autoregressive baseline (System 1) achieved 100% adversarial robustness, 100% juridical consistency, and state finality in under 13 seconds. Conversely, System 2 reasoning introduced catastrophic instability, fundamentally driven by a 26.7% Reasoning Non-Convergence (cognitive collapse) rate. This collapse degraded trial-to-trial consensus stability to 72.6% and imposed a 17x latency overhead, introducing critical vulnerabilities to Governance Extractable Value (GEV) and hardware centralization. While rare (1.5% of adversarial trials), we empirically captured "Reasoning-Induced Sycophancy," where the model generated significantly longer internal monologues (averaging 25,750 characters) to rationalize failing the adversarial trap. We conclude that for edge-native SLMs operating under Byzantine Fault Tolerance (BFT) constraints, System 1 parameterized intuition is structurally and economically superior to System 2 iterative deliberation for decentralized consensus.
Code and Dataset: https://github.com/smarizvi110/sentinel-bench