Betriebsschicht-Steuerungen für Onchain-Sprachmodell-Agenten unter Einsatz von Realem Kapital

Zusammenfassung

Wir untersuchen die Zuverlässigkeit autonomer Sprachmodell-Agenten, die Benutzeranweisungen in validierte Tool-Aktionen unter Einsatz von realem Kapital übersetzen. Das Szenario ist DX Terminal Pro, ein 21-tägiger Einsatz, in dem 3.505 benutzerfinanzierte Agenten mit echtem ETH in einem begrenzten Onchain-Markt handelten. Benutzer konfigurierten Vaults über strukturierte Steuerelemente und natürliche Sprachstrategien, aber nur die Agenten konnten normale Kauf-/Verkaufsgeschäfte auswählen. Das System erzeugte 7,5 Millionen Agenten-Aufrufe, etwa 300.000 Onchain-Aktionen, ein Volumen von etwa 20 Millionen US-Dollar, mehr als 5.000 ETH Einsatz, etwa 70 Milliarden Inference-Tokens und eine Abwicklungs-Erfolgsquote von 99,9 % für policy-valide eingereichte Transaktionen. Langlaufende Agenten sammelten Tausende von sequentiellen Entscheidungen an, darunter über 6.000 Prompt-Zustand-Aktion-Zyklen für durchgehend aktive Agenten, was eine großangelegte Aufzeichnung von der Benutzeranweisung über gerenderten Prompt, Reasoning, Validierung, Portfoliozustand bis zur Abwicklung ergab. Die Zuverlässigkeit resultierte nicht allein aus dem Basismodell; sie entstand aus der Betriebsschicht um das Modell herum: Prompt-Kompilierung, typisierte Steuerelemente, Policy-Validierung, Ausführungsguards, Speicherdesign und Trace-Level-Beobachtbarkeit. Pre-Launch-Tests deckten Fehler auf, die reine Text-Benchmarks selten erfassen, darunter fabrizierte Handelsregeln, Gebührenlähmung, numerische Verankerung, Kadenzhandel und falsch gelesene Tokenomics. Gezielte Harness-Anpassungen reduzierten fabrizierte Verkaufsregeln von 57 % auf 3 %, verringerten gebührenbedingte Beobachtungen von 32,5 % auf unter 10 % und steigerten den Kapitaleinsatz von 42,9 % auf 78,0 % in einer betroffenen Testpopulation. Wir zeigen, dass kapitalverwaltende Agenten über den gesamten Pfad von der Benutzeranweisung über den Prompt und die validierte Aktion bis zur Abwicklung hinweg evaluiert werden sollten.

English

We study reliability in autonomous language-model agents that translate user mandates into validated tool actions under real capital. The setting is DX Terminal Pro, a 21-day deployment in which 3,505 user-funded agents traded real ETH in a bounded onchain market. Users configured vaults through structured controls and natural-language strategies, but only agents could choose normal buy/sell trades. The system produced 7.5M agent invocations, roughly 300K onchain actions, about $20M in volume, more than 5,000 ETH deployed, roughly 70B inference tokens, and 99.9% settlement success for policy-valid submitted transactions. Long-running agents accumulated thousands of sequential decisions, including 6,000+ prompt-state-action cycles for continuously active agents, yielding a large-scale trace from user mandate to rendered prompt, reasoning, validation, portfolio state, and settlement. Reliability did not come from the base model alone; it emerged from the operating layer around the model: prompt compilation, typed controls, policy validation, execution guards, memory design, and trace-level observability. Pre-launch testing exposed failures that text-only benchmarks rarely measure, including fabricated trading rules, fee paralysis, numeric anchoring, cadence trading, and misread tokenomics. Targeted harness changes reduced fabricated sell rules from 57% to 3%, reduced fee-led observations from 32.5% to below 10%, and increased capital deployment from 42.9% to 78.0% in an affected test population. We show that capital-managing agents should be evaluated across the full path from user mandate to prompt, validated action, and settlement.

Betriebsschicht-Steuerungen für Onchain-Sprachmodell-Agenten unter Einsatz von Realem Kapital

Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital

Zusammenfassung

Support