Controles da Camada Operacional para Agentes de Modelo de Linguagem Onchain Sob Capital Real

Resumo

Estudamos a confiabilidade em agentes autónomos baseados em modelos de linguagem que traduzem mandatos do usuário em ações validadas de ferramentas sob capital real. O cenário é o DX Terminal Pro, uma implantação de 21 dias na qual 3.505 agentes financiados por usuários negociaram ETH real em um mercado on-chain delimitado. Os usuários configuraram cofres através de controlos estruturados e estratégias em linguagem natural, mas apenas os agentes podiam escolher operações normais de compra/venda. O sistema produziu 7,5 milhões de invocações de agentes, aproximadamente 300 mil ações on-chain, cerca de US$ 20 milhões em volume, mais de 5.000 ETH implantados, aproximadamente 70 mil milhões de *tokens* de inferência e 99,9% de sucesso na liquidação para transações submetidas validadas pela política. Agentes de longa duração acumularam milhares de decisões sequenciais, incluindo mais de 6.000 ciclos de estado-*prompt*-ação para agentes continuamente ativos, resultando num rastreio de larga escala desde o mandato do usuário até ao *prompt* renderizado, raciocínio, validação, estado da carteira e liquidação. A confiabilidade não resultou apenas do modelo base; emergiu da camada operacional em torno do modelo: compilação de *prompts*, controlos tipados, validação de políticas, guardas de execução, design de memória e observabilidade ao nível do rastreio. Testes pré-lançamento expuseram falhas que os *benchmarks* baseados apenas em texto raramente medem, incluindo regras de negociação fabricadas, paralisia por taxas, ancoragem numérica, negociação por cadência e leitura incorreta da tokenómica. Alterações direcionadas no *harness* reduziram as regras de venda fabricadas de 57% para 3%, reduziram as observações lideradas por taxas de 32,5% para menos de 10% e aumentaram a implantação de capital de 42,9% para 78,0% numa população de teste afetada. Mostramos que os agentes gestores de capital devem ser avaliados em todo o percurso, desde o mandato do usuário até ao *prompt*, ação validada e liquidação.

English

We study reliability in autonomous language-model agents that translate user mandates into validated tool actions under real capital. The setting is DX Terminal Pro, a 21-day deployment in which 3,505 user-funded agents traded real ETH in a bounded onchain market. Users configured vaults through structured controls and natural-language strategies, but only agents could choose normal buy/sell trades. The system produced 7.5M agent invocations, roughly 300K onchain actions, about $20M in volume, more than 5,000 ETH deployed, roughly 70B inference tokens, and 99.9% settlement success for policy-valid submitted transactions. Long-running agents accumulated thousands of sequential decisions, including 6,000+ prompt-state-action cycles for continuously active agents, yielding a large-scale trace from user mandate to rendered prompt, reasoning, validation, portfolio state, and settlement. Reliability did not come from the base model alone; it emerged from the operating layer around the model: prompt compilation, typed controls, policy validation, execution guards, memory design, and trace-level observability. Pre-launch testing exposed failures that text-only benchmarks rarely measure, including fabricated trading rules, fee paralysis, numeric anchoring, cadence trading, and misread tokenomics. Targeted harness changes reduced fabricated sell rules from 57% to 3%, reduced fee-led observations from 32.5% to below 10%, and increased capital deployment from 42.9% to 78.0% in an affected test population. We show that capital-managing agents should be evaluated across the full path from user mandate to prompt, validated action, and settlement.

Controles da Camada Operacional para Agentes de Modelo de Linguagem Onchain Sob Capital Real

Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital

Resumo

Support