Orçamentos de Tokens: Um Catálogo Empírico de 63 Incidentes de Estouro de Orçamento de Agente de LLM, com uma Mitigação em Rust de Tipagem Afim como Estudo de Caso

Resumo

Estouros de orçamento em agentes LLM são uma classe documentada de falha em produção: um único loop de tentativa pode gastar milhares de dólares antes que um operador perceba, e as propriedades de integridade durante o processo que o impediriam (sem aliasing, sem gasto duplo, sem uso pós-delegação de um valor oneroso) são aplicadas, quando o são, por wrappers ad-hoc em vez de pelo sistema de tipos. Nossa contribuição central é empírica: um catálogo de 63 incidentes confirmados em produção, oriundos de 21 arcabouços de orquestração (2023-2026), cada um respaldado por uma issue citada no GitHub e, quando relatado, uma perda em dólares, organizado em uma taxonomia de falhas com oito agrupamentos (kappa de Cohen entre avaliadores = 0,837, N = 113), além de 47 entradas estruturais suplementares. Como uma das mitigações avaliadas contra essa taxonomia, construímos token-budgets, uma crate Rust de 1.180 linhas (sem unsafe) que operacionaliza a propriedade afim de modo que clonar, gastar duas vezes ou usar um orçamento após delegá-lo resultem em erros de compilação, e não em perigos em tempo de execução que um operador precise lembrar de evitar. O limite em dólares é aritmética em tempo de execução sob uma suposição do estimador; a camada afim torna essa aritmética não contornável. Em cargas de trabalho de agente único, um contador Python de 4 linhas equipara-se à crate com 0/30 de extrapolação, portanto o valor distintivo é a não contornabilidade sob erro do operador na delegação multiagente: a condição de corrida de fan-out de delegação documentada em 11 incidentes é rejeitada pelo verificador de empréstimo em tempo de compilação, enquanto o mesmo padrão sob asyncio extrapola 30/30 e três alternativas disciplinadas extrapolam 0/30. Em cinco runtimes, três provedores e um teste de API ao vivo estratificado por temperatura (N = 160), a abordagem reporta zero violações de limite e zero recusas falsas, com paridade operacional em relação a trabalhos concorrentes. A sobrerreserva estática é de 4 a 6 vezes (2,11 vezes adaptativa). A solidez de limite em nível binário no binário em execução permanece em aberto.

English

LLM-agent budget overruns are a documented production failure class: a single retry loop can spend thousands of dollars before an operator notices, and the in-process integrity properties that would prevent it (no aliasing, no double-spend, no use-after-delegation of a cost-bearing value) are enforced, if at all, by ad-hoc wrappers rather than by the type system. Our central contribution is empirical: a catalog of 63 confirmed production incidents from 21 orchestration frameworks (2023-2026), each backed by a quoted GitHub issue and, where reported, a dollar loss, organized into an eight-cluster failure taxonomy (inter-rater Cohen's kappa = 0.837, N = 113), plus 47 supplementary structural entries. As one mitigation evaluated against this taxonomy, we build token-budgets, an 1,180-line Rust crate (no unsafe) that operationalizes affine ownership so that cloning, double-spending, or using a budget after delegating it are compile errors rather than runtime hazards an operator must remember to avoid. The dollar cap is runtime arithmetic under an estimator assumption; the affine layer makes that arithmetic non-bypassable. On single-agent workloads a 4-line Python counter matches the crate at 0/30 overshoot, so the distinguishing value is non-bypassability under operator error in multi-agent delegation: the delegation-fanout race documented in 11 incidents is rejected by the borrow checker at compile time, while the same pattern under asyncio overshoots 30/30 and three disciplined alternatives overshoot 0/30. Across five runtimes, three providers, and a temperature-stratified live-API test (N = 160), the approach reports zero cap violations and zero false refusals, at operational parity with concurrent work. Static over-reservation is 4-6x (2.11x adaptive). Binary-level cap-soundness on the running binary is left open.