Управление на уровне операционного слоя для ончейн-агентов на основе языковых моделей в условиях реального капитала

Аннотация

Мы исследуем надежность автономных агентов на основе языковых моделей, которые преобразуют пользовательские предписания в проверенные инструментальные действия при работе с реальным капиталом. Эксперимент проводился в рамках DX Terminal Pro — 21-дневного развертывания, в ходе которого 3505 агентов, финансируемых пользователями, торговали реальным ETH на ограниченном ончейн-рынке. Пользователи настраивали хранилища через структурированные контролы и стратегии на естественном языке, но только агенты могли выбирать обычные сделки купли/продажи. Система сгенерировала 7,5 млн вызовов агентов, примерно 300 тыс. ончейн-действий, объем торгов около $20 млн, более 5000 развернутого ETH, примерно 70 млрд токенов вывода и 99,9% успешных расчетов по транзакциям, прошедшим проверку политик. Долгоработающие агенты накапливали тысячи последовательных решений, включая более 6000 циклов «промпт-состояние-действие» для постоянно активных агентов, что дало масштабную трассировку от пользовательского предписания до сформированного промпта, рассуждений, проверки, состояния портфеля и расчета. Надежность обеспечивалась не только базовой моделью; она возникала на операционном уровне вокруг модели: компиляция промптов, типизированные контролы, проверка политик, защита исполнения, архитектура памяти и трассируемость на уровне цепочек действий. Предварительное тестирование выявило сбои, которые редко измеряются в текстовых бенчмарках, включая фабрикацию торговых правил, паралич из-за комиссий, числовую анкеровку, торговлю по ритму и неверное прочтение токеномики. Целевые изменения в системе снизили долю сфабрикованных правил продажи с 57% до 3%, уменьшили наблюдения, вызванные комиссиями, с 32,5% до менее 10%, и увеличили развертывание капитала с 42,9% до 78,0% в тестовой группе, подверженной этим проблемам. Мы показываем, что агенты, управляющие капиталом, должны оцениваться по всему пути от пользовательского предписания до промпта, проверенного действия и расчета.

English

We study reliability in autonomous language-model agents that translate user mandates into validated tool actions under real capital. The setting is DX Terminal Pro, a 21-day deployment in which 3,505 user-funded agents traded real ETH in a bounded onchain market. Users configured vaults through structured controls and natural-language strategies, but only agents could choose normal buy/sell trades. The system produced 7.5M agent invocations, roughly 300K onchain actions, about $20M in volume, more than 5,000 ETH deployed, roughly 70B inference tokens, and 99.9% settlement success for policy-valid submitted transactions. Long-running agents accumulated thousands of sequential decisions, including 6,000+ prompt-state-action cycles for continuously active agents, yielding a large-scale trace from user mandate to rendered prompt, reasoning, validation, portfolio state, and settlement. Reliability did not come from the base model alone; it emerged from the operating layer around the model: prompt compilation, typed controls, policy validation, execution guards, memory design, and trace-level observability. Pre-launch testing exposed failures that text-only benchmarks rarely measure, including fabricated trading rules, fee paralysis, numeric anchoring, cadence trading, and misread tokenomics. Targeted harness changes reduced fabricated sell rules from 57% to 3%, reduced fee-led observations from 32.5% to below 10%, and increased capital deployment from 42.9% to 78.0% in an affected test population. We show that capital-managing agents should be evaluated across the full path from user mandate to prompt, validated action, and settlement.

Управление на уровне операционного слоя для ончейн-агентов на основе языковых моделей в условиях реального капитала

Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital

Аннотация

Support