Der Preis der Anarchie in der disaggregierten Inferenz

Zusammenfassung

Disaggregierte Inferenzarchitekturen trennen physisch die Prefill- und Decode-Phasen auf unterschiedliche GPU-Pools auf, wodurch konkurrierende „Agenten" entstehen, die sich ein festes Hardwarebudget teilen. Wir liefern nach unserem Kenntnisstand die erste formale spieltheoretische Analyse dieser Architektur und verwenden NVIDIA Dynamo als konkretes Fallbeispiel. Wir modellieren das disaggregeierte Serving als drei gekoppelte Spiele: ein Zwei-Spieler-Ressourcenspiel zwischen Prefill- und Decode-Pool, ein selbstsüchtiges Caching-Spiel über den hierarchischen KV-Cache und ein Stauspiel mit positiven Externalitäten für das Request-Routing. Die letzten beiden validieren wir empirisch; das P/D-Ressourcenspiel wird analytisch behandelt (Abschnitt 9.2). Wir charakterisieren, wie GPU-Sättigung Regimeübergänge induziert, die die Auszahlungsstruktur des Spiels verschieben: Unterhalb der Sättigung weist egoistisches Verhalten einen begrenzten Price of Anarchy (PoA) auf; bei Sättigung treiben überlineare Latenzen und Cache-Externalitäten unseren empirischen Schätzer PoA-hat (definiert in Abschnitt 6.4) nach oben. Auf dieser Grundlage entwerfen wir einen adaptiven Controller, der Sättigungsübergänge in Echtzeit erkennt und die Routingparameter entsprechend anpasst, indem er von der Ausnutzung von Cache-Affinität zur lastausgeglichenen Überlastvermeidung übergeht. Wir setzen unser Framework auf einem 3-Knoten-NVIDIA-B200-Cluster um, das Dynamo mit zwei Modellen betreibt: Nemotron-4-340B (TP=8, Full-Node-Worker mit Cross-InfiniBand-KV-Transfers) und Llama-3.1-70B (TP=4). Dabei finden wir auf beiden Modellen dieselbe Drei-Regime-PoA-hat-Struktur mit demselben ersten Gitterpunkt nach dem Knick (C=128). Adaptives Routing verschiebt jedes Modell zu einem besseren Arbeitspunkt. Unser stärkstes Ergebnis betrifft die 70B-1P/5D-Topologie, wo PoA-hat in der gesättigten Phase um das 3,1-fache (von 66,4 auf 21,5) sinkt, bei einem Durchsatzkosten von 13%. Bei der 70B-1P/2D-Topologie sinkt PoA-hat um das 2,2-fache und TTFT P99 um das 7,6-fache (siehe Abschnitt 8.5).

English

Disaggregated inference architectures physically separate prefill and decode phases onto distinct GPU pools, creating competing "agents" that share a fixed hardware budget. We provide, to our knowledge, the first formal game-theoretic analysis of this architecture, using NVIDIA Dynamo as a concrete case study. We model disaggregated serving as three coupled games: a two-player resource game between prefill and decode pools, a selfish caching game over the hierarchical KV cache, and a congestion game with positive externalities for request routing. We empirically validate the latter two; the P/D resource game is treated analytically (Section 9.2). We characterize how GPU saturation induces regime transitions that shift the game's payoff structure: below saturation, selfish behavior has bounded Price of Anarchy (PoA); at saturation, superlinear latency and cache externalities drive our empirical estimator PoA-hat (defined in Section 6.4) upward. Based on this analysis, we design an adaptive controller that detects saturation transitions in real time and adjusts routing parameters accordingly, shifting from cache-affinity exploitation to load-balanced congestion avoidance. We instantiate our framework on a 3-node NVIDIA B200 cluster running Dynamo with two models, Nemotron-4-340B (TP=8, full-node workers with cross-InfiniBand KV transfers) and Llama-3.1-70B (TP=4), and find the same three-regime PoA-hat structure with the same first post-knee grid point (C=128) on both models. Adaptive routing shifts each model to a better operating point. Our strongest result is on the 70B 1P/5D topology, where PoA-hat drops 3.1x (66.4 to 21.5) in the saturated phase at a 13% throughput cost. On the 70B 1P/2D, PoA-hat drops 2.2x and TTFT P99 drops 7.6x (see Section 8.5).