Contrôles de la Couche Opérationnelle pour les Agents de Modèles de Langage Onchain Sous Capital Réel
Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital
April 28, 2026
Auteurs: T. J. Barton, Chris Constantakis, Patti Hauseman, Annie Mous, Alaska Hoffman, Brian Bergeron, Hunter Goodreau
cs.AI
Résumé
Nous étudions la fiabilité des agents autonomes basés sur des modèles de langage qui traduisent les mandats utilisateur en actions d'outils validées dans un contexte de capital réel. L'étude se déroule dans le cadre de DX Terminal Pro, un déploiement de 21 jours durant lequel 3 505 agents financés par les utilisateurs ont négocié de l'ETH réel sur un marché blockchain délimité. Les utilisateurs configuraient des vaults via des contrôles structurés et des stratégies en langage naturel, mais seuls les agents pouvaient choisir les opérations normales d'achat/vente. Le système a généré 7,5 millions d'invocations d'agents, environ 300 000 actions sur la blockchain, un volume d'environ 20 millions de dollars, plus de 5 000 ETH déployés, environ 70 milliards de tokens d'inférence et un taux de succès de règlement de 99,9 % pour les transactions soumises validées par la politique. Les agents de longue durée ont accumulé des milliers de décisions séquentielles, dont plus de 6 000 cycles prompt-état-action pour les agents continuellement actifs, produisant une trace à grande échelle allant du mandat utilisateur au prompt généré, au raisonnement, à la validation, à l'état du portefeuille et au règlement. La fiabilité ne provenait pas uniquement du modèle de base ; elle émergeait de la couche opérationnelle entourant le modèle : compilation des prompts, contrôles typés, validation des politiques, gardes d'exécution, conception de la mémoire et observabilité au niveau de la trace. Les tests pré-lancement ont révélé des défaillances que les benchmarks purement textuels mesurent rarement, incluant des règles de trading fabriquées, la paralysie due aux frais, l'ancrage numérique, le trading de cadence et une mauvaise interprétation de la tokenomique. Des modifications ciblées de l'infrastructure ont réduit les règles de vente fabriquées de 57 % à 3 %, réduit les observations liées aux frais de 32,5 % à moins de 10 %, et augmenté le déploiement de capital de 42,9 % à 78,0 % dans une population test affectée. Nous montrons que les agents gérant du capital doivent être évalués sur l'ensemble du parcours, du mandat utilisateur au prompt, à l'action validée et au règlement.
English
We study reliability in autonomous language-model agents that translate user mandates into validated tool actions under real capital. The setting is DX Terminal Pro, a 21-day deployment in which 3,505 user-funded agents traded real ETH in a bounded onchain market. Users configured vaults through structured controls and natural-language strategies, but only agents could choose normal buy/sell trades. The system produced 7.5M agent invocations, roughly 300K onchain actions, about $20M in volume, more than 5,000 ETH deployed, roughly 70B inference tokens, and 99.9% settlement success for policy-valid submitted transactions. Long-running agents accumulated thousands of sequential decisions, including 6,000+ prompt-state-action cycles for continuously active agents, yielding a large-scale trace from user mandate to rendered prompt, reasoning, validation, portfolio state, and settlement. Reliability did not come from the base model alone; it emerged from the operating layer around the model: prompt compilation, typed controls, policy validation, execution guards, memory design, and trace-level observability. Pre-launch testing exposed failures that text-only benchmarks rarely measure, including fabricated trading rules, fee paralysis, numeric anchoring, cadence trading, and misread tokenomics. Targeted harness changes reduced fabricated sell rules from 57% to 3%, reduced fee-led observations from 32.5% to below 10%, and increased capital deployment from 42.9% to 78.0% in an affected test population. We show that capital-managing agents should be evaluated across the full path from user mandate to prompt, validated action, and settlement.