Agentische AI-systemen moeten worden ontworpen als marginale tokenallocatoren.
Agentic AI Systems Should Be Designed as Marginal Token Allocators
May 2, 2026
Auteurs: Siqi Zhu
cs.AI
Samenvatting
Dit position paper betoogt dat agentische AI-systemen moeten worden ontworpen en geëvalueerd als economieën voor marginale tokenallocatie, in plaats van als tekstgeneratoren die per eenheid worden geprijsd. We volgen een enkele verzoek – een ontwikkelaar die een codeeragent vraagt een falende test te repareren – door vier economische lagen die tegenwoordig geïsoleerd worden ontworpen: een router die beslist welk model antwoordt, een agent die beslist of hij moet plannen, handelen, verifiëren of uitstellen, een serverstack die beslist hoe elke token wordt geproduceerd, en een trainingspijplijn die beslist of de trace de moeite waard is om van te leren. We tonen aan dat alle vier de lagen dezelfde eerstegraadsvoorwaarde oplossen – marginaal voordeel is gelijk aan marginale kosten plus latentiekosten plus risicokosten – maar met verschillende indexverzamelingen en verschillende prijzen. Het kader is opzettelijk minimaal: we stellen geen complete theorie van AI-economie voor. Maar door marginale tokenallocatie als het gedeelde boekhoudkundige object te adopteren, verklaart het waarom systemen die tokens lokaal minimaliseren ze globaal verkeerd alloceren, voorspelt het een kleine set terugkerende faalwijzen (over-routing, over-delegatie, onder-verificatie, servercongestie, verouderde rollouts, misbruik van cache), en wijst het naar een concrete onderzoeksagenda voor tokenbewuste evaluatie, autonomieprijzing, congestiegeprijsde servering en risicogecorrigeerde RL-begroting.
English
This position paper argues that agentic AI systems should be designed and evaluated as marginal token allocation economies rather than as text generators priced by the unit. We follow a single request -- a developer asking a coding agent to fix a failing test -- through four economic layers that today are designed in isolation: a router that decides which model answers, an agent that decides whether to plan, act, verify, or defer, a serving stack that decides how to produce each token, and a training pipeline that decides whether the trace is worth learning from. We show that all four layers are solving the same first-order condition -- marginal benefit equals marginal cost plus latency cost plus risk cost -- with different index sets and different prices. The framing is deliberately minimal: we do not propose a complete theory of AI economics. But adopting marginal token allocation as the shared accounting object explains why systems that locally minimize tokens globally misallocate them, predicts a small set of recurring failure modes (over-routing, over-delegation, under-verification, serving congestion, stale rollouts, cache misuse), and points to a concrete research agenda in token-aware evaluation, autonomy pricing, congestion-priced serving, and risk-adjusted RL budgeting.