ChatPaper.aiChatPaper

에이전트형 AI 시스템은 한계 토큰 할당자로 설계되어야 한다

Agentic AI Systems Should Be Designed as Marginal Token Allocators

May 2, 2026
저자: Siqi Zhu
cs.AI

초록

본 입장 문서는 에이전트형 AI 시스템을 단위당 가격이 책정된 텍스트 생성기가 아닌 한계 토큰 할당 경제체로 설계하고 평가해야 한다고 주장한다. 우리는 단일 요청(개발자가 코딩 에이전트에 실패한 테스트 수정을 요청하는 사례)을 통해 현재 독립적으로 설계된 네 가지 경제 계층을 추적한다: 어떤 모델이 응답할지 결정하는 라우터, 계획 수립/행동 실행/검증 수행/위임 중 어떤 것을 할지 결정하는 에이전트, 각 토큰을 어떻게 생성할지 결정하는 서빙 스택, 그리고 해당 추적 경로가 학습 가치가 있는지 결정하는 학습 파이프라인이다. 우리는 이 네 계층이 모두 동일한 1차 조건—한계 편익 = 한계 비용 + 대기 시간 비용 + 위험 비용—을 서로 다른 지표 집합과 가격으로 풀고 있음을 보인다. 이 프레임워크는 의도적으로 최소한으로 구성되었다: AI 경제학에 대한 완전한 이론을 제안하지는 않는다. 그러나 한계 토큰 할당을 공통의 회계 객체로 채택함으로써, 토큰을 지역적으로 최소화하는 시스템이 전역적으로는 토큰을 잘못 할당하는 이유를 설명하고, 소수의 반복적인 실패 모드(과도한 라우팅, 과도한 위임, 검증 부족, 서빙 정체, 구식 롤아웃, 캐시 오용)를 예측하며, 토큰 인식 평가, 자율성 가격 책정, 정체 기반 가격 서빙, 위험 조정 RL 예산 편성이라는 구체적인 연구 의제를 제시한다.
English
This position paper argues that agentic AI systems should be designed and evaluated as marginal token allocation economies rather than as text generators priced by the unit. We follow a single request -- a developer asking a coding agent to fix a failing test -- through four economic layers that today are designed in isolation: a router that decides which model answers, an agent that decides whether to plan, act, verify, or defer, a serving stack that decides how to produce each token, and a training pipeline that decides whether the trace is worth learning from. We show that all four layers are solving the same first-order condition -- marginal benefit equals marginal cost plus latency cost plus risk cost -- with different index sets and different prices. The framing is deliberately minimal: we do not propose a complete theory of AI economics. But adopting marginal token allocation as the shared accounting object explains why systems that locally minimize tokens globally misallocate them, predicts a small set of recurring failure modes (over-routing, over-delegation, under-verification, serving congestion, stale rollouts, cache misuse), and points to a concrete research agenda in token-aware evaluation, autonomy pricing, congestion-priced serving, and risk-adjusted RL budgeting.
PDF21May 6, 2026