ChatPaper.aiChatPaper

Controles de Capa Operativa para Agentes de Modelos de Lenguaje en Cadena Bajo Capital Real

Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital

April 28, 2026
Autores: T. J. Barton, Chris Constantakis, Patti Hauseman, Annie Mous, Alaska Hoffman, Brian Bergeron, Hunter Goodreau
cs.AI

Resumen

Estudiamos la fiabilidad en agentes autónomos basados en modelos de lenguaje que traducen mandatos de usuario en acciones validadas con herramientas bajo capital real. El escenario es DX Terminal Pro, un despliegue de 21 días en el que 3.505 agentes financiados por usuarios operaron con ETH real en un mercado *onchain* delimitado. Los usuarios configuraron bóvedas mediante controles estructurados y estrategias en lenguaje natural, pero solo los agentes podían elegir operaciones de compra/venta normales. El sistema produjo 7,5 millones de invocaciones de agentes, aproximadamente 300.000 acciones *onchain*, un volumen de alrededor de 20 millones de dólares, más de 5.000 ETH desplegados, aproximadamente 70.000 millones de tokens de inferencia y un 99,9 % de éxito en la liquidación de transacciones enviadas validadas por la política. Los agentes de larga duración acumularon miles de decisiones secuenciales, incluyendo más de 6.000 ciclos estado-prólogo-acción para agentes continuamente activos, generando una traza a gran escala desde el mandato del usuario hasta el prólogo renderizado, el razonamiento, la validación, el estado de la cartera y la liquidación. La fiabilidad no surgió únicamente del modelo base; emergió de la capa de operaciones alrededor del modelo: compilación de *prompts*, controles tipados, validación de políticas, guardas de ejecución, diseño de memoria y observabilidad a nivel de traza. Las pruebas previas al lanzamiento expusieron fallos que los puntos de referencia basados solo en texto rara vez miden, incluyendo reglas de negociación fabricadas, parálisis por comisiones, anclaje numérico, negociación por cadencia y mala lectura de la tokenómica. Cambios específicos en el *harness* redujeron las reglas de venta fabricadas del 57 % al 3 %, redujeron las observaciones lideradas por comisiones del 32,5 % a menos del 10 % y aumentaron el despliegue de capital del 42,9 % al 78,0 % en una población de prueba afectada. Demostramos que los agentes gestores de capital deben evaluarse a lo largo de toda la trayectoria, desde el mandato del usuario hasta el *prompt*, la acción validada y la liquidación.
English
We study reliability in autonomous language-model agents that translate user mandates into validated tool actions under real capital. The setting is DX Terminal Pro, a 21-day deployment in which 3,505 user-funded agents traded real ETH in a bounded onchain market. Users configured vaults through structured controls and natural-language strategies, but only agents could choose normal buy/sell trades. The system produced 7.5M agent invocations, roughly 300K onchain actions, about $20M in volume, more than 5,000 ETH deployed, roughly 70B inference tokens, and 99.9% settlement success for policy-valid submitted transactions. Long-running agents accumulated thousands of sequential decisions, including 6,000+ prompt-state-action cycles for continuously active agents, yielding a large-scale trace from user mandate to rendered prompt, reasoning, validation, portfolio state, and settlement. Reliability did not come from the base model alone; it emerged from the operating layer around the model: prompt compilation, typed controls, policy validation, execution guards, memory design, and trace-level observability. Pre-launch testing exposed failures that text-only benchmarks rarely measure, including fabricated trading rules, fee paralysis, numeric anchoring, cadence trading, and misread tokenomics. Targeted harness changes reduced fabricated sell rules from 57% to 3%, reduced fee-led observations from 32.5% to below 10%, and increased capital deployment from 42.9% to 78.0% in an affected test population. We show that capital-managing agents should be evaluated across the full path from user mandate to prompt, validated action, and settlement.
PDF31May 1, 2026