ChatPaper.aiChatPaper

Los sistemas de IA agenticos deben diseñarse como asignadores marginales de tokens.

Agentic AI Systems Should Be Designed as Marginal Token Allocators

May 2, 2026
Autores: Siqi Zhu
cs.AI

Resumen

Este documento de posición sostiene que los sistemas de IA agentivos deben diseñarse y evaluarse como economías de asignación marginal de tokens, en lugar de como generadores de texto con precios por unidad. Seguimos una única solicitud —un desarrollador pidiendo a un agente de codificación que solucione un test fallido— a través de cuatro capas económicas que hoy se diseñan de forma aislada: un enrutador que decide qué modelo responde, un agente que decide si planificar, actuar, verificar o deferir, una pila de servicio que decide cómo producir cada token, y un pipeline de entrenamiento que decide si el trace merece ser aprendido. Demostramos que las cuatro capas resuelven la misma condición de primer orden —el beneficio marginal es igual al costo marginal más el costo de latencia más el costo de riesgo— con diferentes conjuntos de índices y diferentes precios. El marco es deliberadamente minimalista: no proponemos una teoría completa de la economía de la IA. Pero adoptar la asignación marginal de tokens como el objeto contable compartido explica por qué los sistemas que minimizan localmente los tokens los asignan mal globalmente, predice un pequeño conjunto de modos de fallo recurrentes (sobre-enrutamiento, sobre-delegación, sub-verificación, congestión del servicio, despliegues obsoletos, uso indebido de la caché) y apunta a una agenda de investigación concreta en evaluación consciente de tokens, fijación de precios de autonomía, servicio con precios por congestión y presupuestación de RL ajustada al riesgo.
English
This position paper argues that agentic AI systems should be designed and evaluated as marginal token allocation economies rather than as text generators priced by the unit. We follow a single request -- a developer asking a coding agent to fix a failing test -- through four economic layers that today are designed in isolation: a router that decides which model answers, an agent that decides whether to plan, act, verify, or defer, a serving stack that decides how to produce each token, and a training pipeline that decides whether the trace is worth learning from. We show that all four layers are solving the same first-order condition -- marginal benefit equals marginal cost plus latency cost plus risk cost -- with different index sets and different prices. The framing is deliberately minimal: we do not propose a complete theory of AI economics. But adopting marginal token allocation as the shared accounting object explains why systems that locally minimize tokens globally misallocate them, predicts a small set of recurring failure modes (over-routing, over-delegation, under-verification, serving congestion, stale rollouts, cache misuse), and points to a concrete research agenda in token-aware evaluation, autonomy pricing, congestion-priced serving, and risk-adjusted RL budgeting.
PDF21May 6, 2026