El precio de la anarquía en la inferencia desagregada

Resumen

Las arquitecturas de inferencia desagregadas separan físicamente las fases de prellenado y decodificación en grupos de GPU distintos, creando "agentes" en competencia que comparten un presupuesto fijo de hardware. Presentamos, según nuestro conocimiento, el primer análisis formal de teoría de juegos de esta arquitectura, utilizando NVIDIA Dynamo como caso de estudio concreto. Modelamos el servicio desagregado como tres juegos acoplados: un juego de recursos de dos jugadores entre los grupos de prellenado y decodificación, un juego egoísta de almacenamiento en caché sobre la caché jerárquica KV, y un juego de congestión con externalidades positivas para el enrutamiento de solicitudes. Validamos empíricamente los dos últimos; el juego de recursos P/D (prellenado/decodificación) se trata analíticamente (sección 9.2). Caracterizamos cómo la saturación de las GPU induce transiciones de régimen que modifican la estructura de pagos del juego: por debajo de la saturación, el comportamiento egoísta tiene un Precio de la Anarquía (PoA) acotado; en la saturación, la latencia superlineal y las externalidades de la caché elevan nuestro estimador empírico PoA^ (definido en la sección 6.4). Con base en este análisis, diseñamos un controlador adaptativo que detecta las transiciones de saturación en tiempo real y ajusta los parámetros de enrutamiento en consecuencia, pasando de la explotación de la afinidad de caché a la evitación de la congestión con balanceo de carga. Implementamos nuestro marco en un clúster de 3 nodos NVIDIA B200 que ejecuta Dynamo con dos modelos, Nemotron-4-340B (TP=8, workers de nodo completo con transferencias KV a través de InfiniBand) y Llama-3.1-70B (TP=4), y encontramos la misma estructura de tres regímenes de PoA^ con el mismo primer punto de cuadrícula posterior al codo (C=128) en ambos modelos. El enrutamiento adaptativo desplaza cada modelo a un punto de operación mejor. Nuestro resultado más sólido se da en la topología 1P/5D para 70B, donde el PoA^ disminuye 3,1 veces (de 66,4 a 21,5) en la fase saturada con un costo de rendimiento del 13%. En la topología 1P/2D para 70B, el PoA^ disminuye 2,2 veces y el TTFT P99 disminuye 7,6 veces (véase la sección 8.5).

English

Disaggregated inference architectures physically separate prefill and decode phases onto distinct GPU pools, creating competing "agents" that share a fixed hardware budget. We provide, to our knowledge, the first formal game-theoretic analysis of this architecture, using NVIDIA Dynamo as a concrete case study. We model disaggregated serving as three coupled games: a two-player resource game between prefill and decode pools, a selfish caching game over the hierarchical KV cache, and a congestion game with positive externalities for request routing. We empirically validate the latter two; the P/D resource game is treated analytically (Section 9.2). We characterize how GPU saturation induces regime transitions that shift the game's payoff structure: below saturation, selfish behavior has bounded Price of Anarchy (PoA); at saturation, superlinear latency and cache externalities drive our empirical estimator PoA-hat (defined in Section 6.4) upward. Based on this analysis, we design an adaptive controller that detects saturation transitions in real time and adjusts routing parameters accordingly, shifting from cache-affinity exploitation to load-balanced congestion avoidance. We instantiate our framework on a 3-node NVIDIA B200 cluster running Dynamo with two models, Nemotron-4-340B (TP=8, full-node workers with cross-InfiniBand KV transfers) and Llama-3.1-70B (TP=4), and find the same three-regime PoA-hat structure with the same first post-knee grid point (C=128) on both models. Adaptive routing shifts each model to a better operating point. Our strongest result is on the 70B 1P/5D topology, where PoA-hat drops 3.1x (66.4 to 21.5) in the saturated phase at a 13% throughput cost. On the 70B 1P/2D, PoA-hat drops 2.2x and TTFT P99 drops 7.6x (see Section 8.5).