O Preço da Anarquia na Inferência Desagregada

Resumo

Arquiteturas de inferência desagregadas separam fisicamente as fases de preenchimento (prefill) e decodificação (decode) em conjuntos distintos de GPUs, criando "agentes" concorrentes que compartilham um orçamento fixo de hardware. Apresentamos, até onde sabemos, a primeira análise formal da teoria dos jogos dessa arquitetura, utilizando o NVIDIA Dynamo como estudo de caso concreto. Modelamos o serviço desagregado como três jogos acoplados: um jogo de recursos de dois jogadores entre os conjuntos de preenchimento e decodificação, um jogo de cache egoísta sobre o cache KV hierárquico e um jogo de congestionamento com externalidades positivas para o roteamento de requisições. Validamos empiricamente os dois últimos; o jogo de recursos P/D é tratado analiticamente (Seção 9.2). Caracterizamos como a saturação de GPU induz transições de regime que alteram a estrutura de recompensas do jogo: abaixo da saturação, o comportamento egoísta apresenta Preço da Anarquia (PoA) limitado; na saturação, a latência superlinear e as externalidades de cache elevam nosso estimador empírico PoA-hat (definido na Seção 6.4) para cima. Com base nessa análise, projetamos um controlador adaptativo que detecta transições de saturação em tempo real e ajusta os parâmetros de roteamento de acordo, deslocando-se da exploração de afinidade de cache para a evitação de congestionamento com balanceamento de carga. Instanciamos nossa estrutura em um cluster NVIDIA B200 de 3 nós executando o Dynamo com dois modelos, Nemotron-4-340B (TP=8, workers de nó completo com transferências KV entre InfiniBand) e Llama-3.1-70B (TP=4), e encontramos a mesma estrutura PoA-hat de três regimes com o mesmo primeiro ponto de grade após o joelho (C=128) em ambos os modelos. O roteamento adaptativo desloca cada modelo para um ponto de operação melhor. Nosso resultado mais forte ocorre na topologia 1P/5D do modelo 70B, onde o PoA-hat cai 3,1x (de 66,4 para 21,5) na fase saturada, com um custo de throughput de 13%. No modelo 70B 1P/2D, o PoA-hat cai 2,2x e o TTFT P99 cai 7,6x (ver Seção 8.5).

English

Disaggregated inference architectures physically separate prefill and decode phases onto distinct GPU pools, creating competing "agents" that share a fixed hardware budget. We provide, to our knowledge, the first formal game-theoretic analysis of this architecture, using NVIDIA Dynamo as a concrete case study. We model disaggregated serving as three coupled games: a two-player resource game between prefill and decode pools, a selfish caching game over the hierarchical KV cache, and a congestion game with positive externalities for request routing. We empirically validate the latter two; the P/D resource game is treated analytically (Section 9.2). We characterize how GPU saturation induces regime transitions that shift the game's payoff structure: below saturation, selfish behavior has bounded Price of Anarchy (PoA); at saturation, superlinear latency and cache externalities drive our empirical estimator PoA-hat (defined in Section 6.4) upward. Based on this analysis, we design an adaptive controller that detects saturation transitions in real time and adjusts routing parameters accordingly, shifting from cache-affinity exploitation to load-balanced congestion avoidance. We instantiate our framework on a 3-node NVIDIA B200 cluster running Dynamo with two models, Nemotron-4-340B (TP=8, full-node workers with cross-InfiniBand KV transfers) and Llama-3.1-70B (TP=4), and find the same three-regime PoA-hat structure with the same first post-knee grid point (C=128) on both models. Adaptive routing shifts each model to a better operating point. Our strongest result is on the 70B 1P/5D topology, where PoA-hat drops 3.1x (66.4 to 21.5) in the saturated phase at a 13% throughput cost. On the 70B 1P/2D, PoA-hat drops 2.2x and TTFT P99 drops 7.6x (see Section 8.5).