Orçamentos de Tokens: Um Catálogo Empírico de 63 Incidentes de Estouro de Orçamento de Agente de LLM, com uma Mitigação em Rust de Tipagem Afim como Estudo de Caso
Token Budgets: An Empirical Catalog of 63 LLM-Agent Budget-Overrun Incidents, with an Affine-Typed Rust Mitigation as a Case Study
June 2, 2026
Autores: Sajjad Khan
cs.AI
Resumo
Estouros de orçamento em agentes LLM são uma classe documentada de falha em produção: um único loop de tentativa pode gastar milhares de dólares antes que um operador perceba, e as propriedades de integridade durante o processo que o impediriam (sem aliasing, sem gasto duplo, sem uso pós-delegação de um valor oneroso) são aplicadas, quando o são, por wrappers ad-hoc em vez de pelo sistema de tipos. Nossa contribuição central é empírica: um catálogo de 63 incidentes confirmados em produção, oriundos de 21 arcabouços de orquestração (2023-2026), cada um respaldado por uma issue citada no GitHub e, quando relatado, uma perda em dólares, organizado em uma taxonomia de falhas com oito agrupamentos (kappa de Cohen entre avaliadores = 0,837, N = 113), além de 47 entradas estruturais suplementares. Como uma das mitigações avaliadas contra essa taxonomia, construímos token-budgets, uma crate Rust de 1.180 linhas (sem unsafe) que operacionaliza a propriedade afim de modo que clonar, gastar duas vezes ou usar um orçamento após delegá-lo resultem em erros de compilação, e não em perigos em tempo de execução que um operador precise lembrar de evitar. O limite em dólares é aritmética em tempo de execução sob uma suposição do estimador; a camada afim torna essa aritmética não contornável. Em cargas de trabalho de agente único, um contador Python de 4 linhas equipara-se à crate com 0/30 de extrapolação, portanto o valor distintivo é a não contornabilidade sob erro do operador na delegação multiagente: a condição de corrida de fan-out de delegação documentada em 11 incidentes é rejeitada pelo verificador de empréstimo em tempo de compilação, enquanto o mesmo padrão sob asyncio extrapola 30/30 e três alternativas disciplinadas extrapolam 0/30. Em cinco runtimes, três provedores e um teste de API ao vivo estratificado por temperatura (N = 160), a abordagem reporta zero violações de limite e zero recusas falsas, com paridade operacional em relação a trabalhos concorrentes. A sobrerreserva estática é de 4 a 6 vezes (2,11 vezes adaptativa). A solidez de limite em nível binário no binário em execução permanece em aberto.
English
LLM-agent budget overruns are a documented production failure class: a single retry loop can spend thousands of dollars before an operator notices, and the in-process integrity properties that would prevent it (no aliasing, no double-spend, no use-after-delegation of a cost-bearing value) are enforced, if at all, by ad-hoc wrappers rather than by the type system. Our central contribution is empirical: a catalog of 63 confirmed production incidents from 21 orchestration frameworks (2023-2026), each backed by a quoted GitHub issue and, where reported, a dollar loss, organized into an eight-cluster failure taxonomy (inter-rater Cohen's kappa = 0.837, N = 113), plus 47 supplementary structural entries. As one mitigation evaluated against this taxonomy, we build token-budgets, an 1,180-line Rust crate (no unsafe) that operationalizes affine ownership so that cloning, double-spending, or using a budget after delegating it are compile errors rather than runtime hazards an operator must remember to avoid. The dollar cap is runtime arithmetic under an estimator assumption; the affine layer makes that arithmetic non-bypassable. On single-agent workloads a 4-line Python counter matches the crate at 0/30 overshoot, so the distinguishing value is non-bypassability under operator error in multi-agent delegation: the delegation-fanout race documented in 11 incidents is rejected by the borrow checker at compile time, while the same pattern under asyncio overshoots 30/30 and three disciplined alternatives overshoot 0/30. Across five runtimes, three providers, and a temperature-stratified live-API test (N = 160), the approach reports zero cap violations and zero false refusals, at operational parity with concurrent work. Static over-reservation is 4-6x (2.11x adaptive). Binary-level cap-soundness on the running binary is left open.