Le prix de l'anarchie dans l'inférence désagrégée

Résumé

Les architectures d'inférence désagrégées séparent physiquement les phases de préremplissage et de décodage sur des pools de GPU distincts, créant des « agents » concurrents qui partagent un budget matériel fixe. Nous fournissons, à notre connaissance, la première analyse théorique des jeux formelle de cette architecture, en utilisant NVIDIA Dynamo comme étude de cas concrète. Nous modélisons le service désagrégé comme trois jeux couplés : un jeu de ressources à deux joueurs entre les pools de préremplissage et de décodage, un jeu de mise en cache égoïste sur le cache KV hiérarchique, et un jeu de congestion avec externalités positives pour le routage des requêtes. Nous validons empiriquement les deux derniers ; le jeu de ressources P/D est traité analytiquement (Section 9.2). Nous caractérisons comment la saturation des GPU induit des transitions de régime qui modifient la structure des gains du jeu : en dessous de la saturation, le comportement égoïste a un Prix de l'Anarchie (PoA) borné ; à saturation, la latence superlinéaire et les externalités de cache font monter notre estimateur empirique PoA-hat (défini dans la Section 6.4). Sur la base de cette analyse, nous concevons un contrôleur adaptatif qui détecte les transitions de saturation en temps réel et ajuste les paramètres de routage en conséquence, passant de l'exploitation de l'affinité de cache à l'évitement de congestion par équilibrage de charge. Nous instancions notre framework sur un cluster NVIDIA B200 à 3 nœuds exécutant Dynamo avec deux modèles, Nemotron-4-340B (TP=8, workers sur nœud complet avec transferts KV inter-InfiniBand) et Llama-3.1-70B (TP=4), et trouvons la même structure PoA-hat à trois régimes avec le même premier point de grille après le coude (C=128) sur les deux modèles. Le routage adaptatif déplace chaque modèle vers un meilleur point de fonctionnement. Notre résultat le plus fort concerne la topologie 70B 1P/5D, où le PoA-hat chute de 3,1x (de 66,4 à 21,5) dans la phase saturée, avec un coût en débit de 13 %. Sur la topologie 70B 1P/2D, le PoA-hat chute de 2,2x et le TTFT P99 chute de 7,6x (voir Section 8.5).

English

Disaggregated inference architectures physically separate prefill and decode phases onto distinct GPU pools, creating competing "agents" that share a fixed hardware budget. We provide, to our knowledge, the first formal game-theoretic analysis of this architecture, using NVIDIA Dynamo as a concrete case study. We model disaggregated serving as three coupled games: a two-player resource game between prefill and decode pools, a selfish caching game over the hierarchical KV cache, and a congestion game with positive externalities for request routing. We empirically validate the latter two; the P/D resource game is treated analytically (Section 9.2). We characterize how GPU saturation induces regime transitions that shift the game's payoff structure: below saturation, selfish behavior has bounded Price of Anarchy (PoA); at saturation, superlinear latency and cache externalities drive our empirical estimator PoA-hat (defined in Section 6.4) upward. Based on this analysis, we design an adaptive controller that detects saturation transitions in real time and adjusts routing parameters accordingly, shifting from cache-affinity exploitation to load-balanced congestion avoidance. We instantiate our framework on a 3-node NVIDIA B200 cluster running Dynamo with two models, Nemotron-4-340B (TP=8, full-node workers with cross-InfiniBand KV transfers) and Llama-3.1-70B (TP=4), and find the same three-regime PoA-hat structure with the same first post-knee grid point (C=128) on both models. Adaptive routing shifts each model to a better operating point. Our strongest result is on the 70B 1P/5D topology, where PoA-hat drops 3.1x (66.4 to 21.5) in the saturated phase at a 13% throughput cost. On the 70B 1P/2D, PoA-hat drops 2.2x and TTFT P99 drops 7.6x (see Section 8.5).