実資本下におけるオンチェーン言語モデルエージェントの運用層制御
Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital
April 28, 2026
著者: T. J. Barton, Chris Constantakis, Patti Hauseman, Annie Mous, Alaska Hoffman, Brian Bergeron, Hunter Goodreau
cs.AI
要旨
我々は、ユーザーの指示を検証済みツールアクションに変換する自律型言語モデルエージェントの信頼性を、実資本環境下で検証する。対象はDX Terminal Proにおける21日間の実運用であり、3,505のユーザー資金によるエージェントが限定されたオンチェーン市場で実ETHを取引した。ユーザーは構造化された制御と自然言語戦略でボールトを設定したが、通常の売買取引の選択はエージェントのみが行えた。システムは750万回のエージェント呼び出し、約30万回のオンチェーンアクション、約2,000万ドルの取引量、5,000 ETH超の投入資本、約700億推論トークン、ポリシー検証済み送信トランザクションの99.9%の決済成功率を記録した。長期稼働エージェントは数千の連続意思決定を蓄積し、継続活動エージェントでは6,000超のプロンプト・状態・アクションサイクルに達し、ユーザー指示から生成プロンプト、推論、検証、ポートフォリオ状態、決済に至る大規模トレースを生成した。信頼性は基底モデル単体では達成されず、プロンプトコンパイル、型付き制御、ポリシー検証、実行ガード、メモリ設計、トレースレベル可観測性といったモデルを囲むオペレーティングレイヤーから創発された。事前テストでは、テキストのみのベンチマークが捉えにくい障害を特定:虚構の取引規則、手数料麻痺、数値的アンカリング、リズム取引、トークノミクスの誤読などである。対象的なハーネス改良により、影響を受けたテスト群において、虚構売却規則を57%から3%に削減、手数料主導観測を32.5%から10%未満に低減、資本投入率を42.9%から78.0%に改善した。資本管理エージェントは、ユーザー指示からプロンプト、検証済みアクション、決済に至る完全な経路全体で評価されるべきであることを示す。
English
We study reliability in autonomous language-model agents that translate user mandates into validated tool actions under real capital. The setting is DX Terminal Pro, a 21-day deployment in which 3,505 user-funded agents traded real ETH in a bounded onchain market. Users configured vaults through structured controls and natural-language strategies, but only agents could choose normal buy/sell trades. The system produced 7.5M agent invocations, roughly 300K onchain actions, about $20M in volume, more than 5,000 ETH deployed, roughly 70B inference tokens, and 99.9% settlement success for policy-valid submitted transactions. Long-running agents accumulated thousands of sequential decisions, including 6,000+ prompt-state-action cycles for continuously active agents, yielding a large-scale trace from user mandate to rendered prompt, reasoning, validation, portfolio state, and settlement. Reliability did not come from the base model alone; it emerged from the operating layer around the model: prompt compilation, typed controls, policy validation, execution guards, memory design, and trace-level observability. Pre-launch testing exposed failures that text-only benchmarks rarely measure, including fabricated trading rules, fee paralysis, numeric anchoring, cadence trading, and misread tokenomics. Targeted harness changes reduced fabricated sell rules from 57% to 3%, reduced fee-led observations from 32.5% to below 10%, and increased capital deployment from 42.9% to 78.0% in an affected test population. We show that capital-managing agents should be evaluated across the full path from user mandate to prompt, validated action, and settlement.