Operationele-Laag Besturing voor Onchain Taalmodel-Agenten Onder Real Kapitaal

Samenvatting

Wij bestuderen de betrouwbaarheid van autonome taalmodel-agenten die gebruikersopdrachten vertalen naar gevalideerde toolacties met reëel kapitaal. De setting is DX Terminal Pro, een implementatie van 21 dagen waarin 3.505 door gebruikers gefinancierde agenten met echt ETH handelden in een afgebakende on-chain markt. Gebruikers configureerden kluizen via gestructureerde controles en strategieën in natuurlijke taal, maar alleen agenten konden normale koop-/verkooptransacties kiezen. Het systeem produceerde 7,5 miljoen agentaanroepen, ongeveer 300.000 on-chain acties, een volume van ongeveer $20 miljoen, meer dan 5.000 ETH ingezet kapitaal, ongeveer 70 miljard inferentie-tokens en een afwikkelsucces van 99,9% voor beleidsgevalideerde transacties. Langlopende agenten accumuleerden duizenden opeenvolgende beslissingen, waaronder meer dan 6.000 prompt-toestand-actie cycli voor continu actieve agenten, wat een grootschalig spoor opleverde van gebruikersopdracht tot gegenereerde prompt, redenering, validatie, portefeuillestatus en afwikkeling. Betrouwbaarheid kwam niet alleen van het basismodel; zij ontstond vanuit de operationele laag rond het model: promptcompilatie, getypeerde controles, beleidsvalidatie, uitvoeringsbeveiliging, geheugenontwerp en traceerbaarheid op spoorniveau. Pre-launch tests legden fouten bloot die tekstuele benchmarks zelden meten, waaronder vervalste handelsregels, fee-verlamming, numeriek ankeren, ritmeverstoring en verkeerd gelezen tokenomics. Gerichte aanpassingen aan het testraamwerk verminderden vervalste verkoopregels van 57% naar 3%, verminderden fee-gerelateerde observaties van 32,5% naar minder dan 10%, en verhoogden de kapitaalinzet van 42,9% naar 78,0% in een geteste populatie. Wij tonen aan dat kapitaalbeherende agenten geëvalueerd moeten worden over het volledige pad van gebruikersopdracht naar prompt, gevalideerde actie en afwikkeling.

English

We study reliability in autonomous language-model agents that translate user mandates into validated tool actions under real capital. The setting is DX Terminal Pro, a 21-day deployment in which 3,505 user-funded agents traded real ETH in a bounded onchain market. Users configured vaults through structured controls and natural-language strategies, but only agents could choose normal buy/sell trades. The system produced 7.5M agent invocations, roughly 300K onchain actions, about $20M in volume, more than 5,000 ETH deployed, roughly 70B inference tokens, and 99.9% settlement success for policy-valid submitted transactions. Long-running agents accumulated thousands of sequential decisions, including 6,000+ prompt-state-action cycles for continuously active agents, yielding a large-scale trace from user mandate to rendered prompt, reasoning, validation, portfolio state, and settlement. Reliability did not come from the base model alone; it emerged from the operating layer around the model: prompt compilation, typed controls, policy validation, execution guards, memory design, and trace-level observability. Pre-launch testing exposed failures that text-only benchmarks rarely measure, including fabricated trading rules, fee paralysis, numeric anchoring, cadence trading, and misread tokenomics. Targeted harness changes reduced fabricated sell rules from 57% to 3%, reduced fee-led observations from 32.5% to below 10%, and increased capital deployment from 42.9% to 78.0% in an affected test population. We show that capital-managing agents should be evaluated across the full path from user mandate to prompt, validated action, and settlement.

Operationele-Laag Besturing voor Onchain Taalmodel-Agenten Onder Real Kapitaal

Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital

Samenvatting

Support