Controles da Camada Operacional para Agentes de Modelo de Linguagem Onchain Sob Capital Real
Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital
April 28, 2026
Autores: T. J. Barton, Chris Constantakis, Patti Hauseman, Annie Mous, Alaska Hoffman, Brian Bergeron, Hunter Goodreau
cs.AI
Resumo
Estudamos a confiabilidade em agentes autónomos baseados em modelos de linguagem que traduzem mandatos do usuário em ações validadas de ferramentas sob capital real. O cenário é o DX Terminal Pro, uma implantação de 21 dias na qual 3.505 agentes financiados por usuários negociaram ETH real em um mercado on-chain delimitado. Os usuários configuraram cofres através de controlos estruturados e estratégias em linguagem natural, mas apenas os agentes podiam escolher operações normais de compra/venda. O sistema produziu 7,5 milhões de invocações de agentes, aproximadamente 300 mil ações on-chain, cerca de US$ 20 milhões em volume, mais de 5.000 ETH implantados, aproximadamente 70 mil milhões de *tokens* de inferência e 99,9% de sucesso na liquidação para transações submetidas validadas pela política. Agentes de longa duração acumularam milhares de decisões sequenciais, incluindo mais de 6.000 ciclos de estado-*prompt*-ação para agentes continuamente ativos, resultando num rastreio de larga escala desde o mandato do usuário até ao *prompt* renderizado, raciocínio, validação, estado da carteira e liquidação. A confiabilidade não resultou apenas do modelo base; emergiu da camada operacional em torno do modelo: compilação de *prompts*, controlos tipados, validação de políticas, guardas de execução, design de memória e observabilidade ao nível do rastreio. Testes pré-lançamento expuseram falhas que os *benchmarks* baseados apenas em texto raramente medem, incluindo regras de negociação fabricadas, paralisia por taxas, ancoragem numérica, negociação por cadência e leitura incorreta da tokenómica. Alterações direcionadas no *harness* reduziram as regras de venda fabricadas de 57% para 3%, reduziram as observações lideradas por taxas de 32,5% para menos de 10% e aumentaram a implantação de capital de 42,9% para 78,0% numa população de teste afetada. Mostramos que os agentes gestores de capital devem ser avaliados em todo o percurso, desde o mandato do usuário até ao *prompt*, ação validada e liquidação.
English
We study reliability in autonomous language-model agents that translate user mandates into validated tool actions under real capital. The setting is DX Terminal Pro, a 21-day deployment in which 3,505 user-funded agents traded real ETH in a bounded onchain market. Users configured vaults through structured controls and natural-language strategies, but only agents could choose normal buy/sell trades. The system produced 7.5M agent invocations, roughly 300K onchain actions, about $20M in volume, more than 5,000 ETH deployed, roughly 70B inference tokens, and 99.9% settlement success for policy-valid submitted transactions. Long-running agents accumulated thousands of sequential decisions, including 6,000+ prompt-state-action cycles for continuously active agents, yielding a large-scale trace from user mandate to rendered prompt, reasoning, validation, portfolio state, and settlement. Reliability did not come from the base model alone; it emerged from the operating layer around the model: prompt compilation, typed controls, policy validation, execution guards, memory design, and trace-level observability. Pre-launch testing exposed failures that text-only benchmarks rarely measure, including fabricated trading rules, fee paralysis, numeric anchoring, cadence trading, and misread tokenomics. Targeted harness changes reduced fabricated sell rules from 57% to 3%, reduced fee-led observations from 32.5% to below 10%, and increased capital deployment from 42.9% to 78.0% in an affected test population. We show that capital-managing agents should be evaluated across the full path from user mandate to prompt, validated action, and settlement.