Controlli a Livello Operativo per Agenti di Modelli Linguistici Onchain Sotto Capitale Reale

Abstract

Studiamo l'affidabilità di agenti autonomi basati su modelli linguistici che traducono i mandati degli utenti in azioni strumentali validate in contesti di capitale reale. L'ambito è DX Terminal Pro, un dispiegamento di 21 giorni in cui 3.505 agenti finanziati da utenti hanno negoziato ETH reale in un mercato onchain delimitato. Gli utenti configuravano vault tramite controlli strutturati e strategie in linguaggio naturale, ma solo gli agenti potevano scegliere le normali operazioni di acquisto/vendita. Il sistema ha prodotto 7,5 milioni di invocazioni di agenti, circa 300.000 azioni onchain, un volume di circa 20 milioni di dollari, oltre 5.000 ETH impiegati, circa 70 miliardi di token di inferenza e un tasso di successo della regolazione del 99,9% per le transazioni inviate convalidati dalle policy. Agenti a esecuzione prolungata hanno accumulato migliaia di decisioni sequenziali, inclusi oltre 6.000 cicli prompt-stato-azione per agenti continuativamente attivi, generando una traccia su larga scala dal mandato utente al prompt generato, al ragionamento, alla convalida, allo stato del portafoglio e alla regolazione. L'affidabilità non derivava unicamente dal modello base; emergeva dallo strato operativo attorno al modello: compilazione dei prompt, controlli tipizzati, convalida delle policy, guardie di esecuzione, progettazione della memoria e osservabilità a livello di traccia. I test pre-lancio hanno evidenziato fallimenti che i benchmark puramente testuali raramente misurano, incluse regole di trading fabbricate, paralisi da commissione, ancoraggio numerico, trading a cadenza e errata interpretazione della tokenomics. Modifiche mirate all'harness hanno ridotto le regole di vendita fabbricate dal 57% al 3%, ridotto le osservazioni guidate da commissioni dal 32,5% a meno del 10% e aumentato l'impiego di capitale dal 42,9% al 78,0% in una popolazione di test interessata. Dimostriamo che gli agenti gestori di capitale dovrebbero essere valutati lungo l'intero percorso dal mandato utente al prompt, all'azione convalidata e alla regolazione.

English

We study reliability in autonomous language-model agents that translate user mandates into validated tool actions under real capital. The setting is DX Terminal Pro, a 21-day deployment in which 3,505 user-funded agents traded real ETH in a bounded onchain market. Users configured vaults through structured controls and natural-language strategies, but only agents could choose normal buy/sell trades. The system produced 7.5M agent invocations, roughly 300K onchain actions, about $20M in volume, more than 5,000 ETH deployed, roughly 70B inference tokens, and 99.9% settlement success for policy-valid submitted transactions. Long-running agents accumulated thousands of sequential decisions, including 6,000+ prompt-state-action cycles for continuously active agents, yielding a large-scale trace from user mandate to rendered prompt, reasoning, validation, portfolio state, and settlement. Reliability did not come from the base model alone; it emerged from the operating layer around the model: prompt compilation, typed controls, policy validation, execution guards, memory design, and trace-level observability. Pre-launch testing exposed failures that text-only benchmarks rarely measure, including fabricated trading rules, fee paralysis, numeric anchoring, cadence trading, and misread tokenomics. Targeted harness changes reduced fabricated sell rules from 57% to 3%, reduced fee-led observations from 32.5% to below 10%, and increased capital deployment from 42.9% to 78.0% in an affected test population. We show that capital-managing agents should be evaluated across the full path from user mandate to prompt, validated action, and settlement.

Controlli a Livello Operativo per Agenti di Modelli Linguistici Onchain Sotto Capitale Reale

Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital

Abstract

Support