ChatPaper.aiChatPaper

실제 자본 하에서 온체인 언어 모델 에이전트의 운영 계층 제어

Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital

April 28, 2026
저자: T. J. Barton, Chris Constantakis, Patti Hauseman, Annie Mous, Alaska Hoffman, Brian Bergeron, Hunter Goodreau
cs.AI

초록

우리는 실제 자본이 걸린 환경에서 사용자 지시를 검증된 도구 행동으로 변환하는 자율 언어 모델 에이전트의 신뢰성을 연구한다. 실험 환경은 DX Terminal Pro로, 3,505개의 사용자 자금 지원 에이전트가 21일간 제한된 온체인 시장에서 실제 ETH를 거래한 배포 사례이다. 사용자는 구조화된 제어와 자연어 전략으로 금고를 구성했지만, 일반 매수/매도 거래 선택은 오직 에이전트만이 할 수 있었다.该系统은 750만 건의 에이전트 호출, 약 30만 건의 온체인 행동, 약 2천만 달러의 거래량, 5,000 ETH 이상의 배포 자본, 약 700억 개의 추론 토큰, 그리고 정책 검증을 통과한 제출 트랜잭션의 99.9% 결제 성공률을 기록했다. 장기 운영 에이전트는 수천 번의 연속적 결정을 누적했으며, 지속적으로 활성화된 에이전트의 경우 6,000회 이상의 프롬프트-상태-행동 주기를 생성하여 사용자 지시부터 렌더링된 프롬프트, 추론, 검증, 포트폴리오 상태, 결제에 이르는 대규모 트레이스 데이터를 산출했다. 신뢰성은 기본 모델만으로는 달성되지 않았으며, 모델을 둘러싼 운영 계층—프롬프트 컴파일, 타입 기반 제어, 정책 검증, 실행 가드, 메모리 설계, 트레이스 수준 가시성—에서 비롯되었다. 출시 전 테스트는 텍스트 기반 벤치마크가 거의 측정하지 않는 실패 유형을 드러냈는데, 조작된 거래 규칙, 수수료 마비, 숫자 고정, 정기적 거래, 토크노믹스 오독 등이 포함된다. 대상 테스트 집단에서 특수 설계된 하네스 변경으로 조작된 매도 규칙이 57%에서 3%로 감소했고, 수수료 주도 관측이 32.5%에서 10% 미만으로 줄었으며, 자본 배포율이 42.9%에서 78.0%로 증가했다. 우리는 자본 관리 에이전트가 사용자 지시부터 프롬프트, 검증된 행동, 결제에 이르는 전체 경로에 걸쳐 평가되어야 함을 보여준다.
English
We study reliability in autonomous language-model agents that translate user mandates into validated tool actions under real capital. The setting is DX Terminal Pro, a 21-day deployment in which 3,505 user-funded agents traded real ETH in a bounded onchain market. Users configured vaults through structured controls and natural-language strategies, but only agents could choose normal buy/sell trades. The system produced 7.5M agent invocations, roughly 300K onchain actions, about $20M in volume, more than 5,000 ETH deployed, roughly 70B inference tokens, and 99.9% settlement success for policy-valid submitted transactions. Long-running agents accumulated thousands of sequential decisions, including 6,000+ prompt-state-action cycles for continuously active agents, yielding a large-scale trace from user mandate to rendered prompt, reasoning, validation, portfolio state, and settlement. Reliability did not come from the base model alone; it emerged from the operating layer around the model: prompt compilation, typed controls, policy validation, execution guards, memory design, and trace-level observability. Pre-launch testing exposed failures that text-only benchmarks rarely measure, including fabricated trading rules, fee paralysis, numeric anchoring, cadence trading, and misread tokenomics. Targeted harness changes reduced fabricated sell rules from 57% to 3%, reduced fee-led observations from 32.5% to below 10%, and increased capital deployment from 42.9% to 78.0% in an affected test population. We show that capital-managing agents should be evaluated across the full path from user mandate to prompt, validated action, and settlement.
PDF31May 1, 2026