Цена анархии в дезагрегированном выводе

Аннотация

Дезагрегированные архитектуры вывода физически разделяют фазы предзаполнения и декодирования на отдельные пулы GPU, создавая конкурирующие «агенты», которые делят фиксированный бюджет оборудования. Мы представляем, насколько нам известно, первый формальный теоретико-игровой анализ этой архитектуры, используя NVIDIA Dynamo в качестве конкретного примера. Мы моделируем дезагрегированное обслуживание как три связанные игры: ресурсную игру двух игроков между пулами предзаполнения и декодирования, эгоистическую игру кэширования в иерархическом KV-кеше и игру перегрузки с положительными внешними эффектами для маршрутизации запросов. Последние две мы эмпирически подтверждаем; ресурсная игра P/D рассматривается аналитически (раздел 9.2). Мы характеризуем, как насыщение GPU вызывает переходы между режимами, которые изменяют структуру выигрыша игры: ниже насыщения эгоистичное поведение имеет ограниченную цену анархии (PoA); при насыщении сверхлинейная задержка и внешние эффекты кэша увеличивают нашу эмпирическую оценку PoA-шляпка (определенную в разделе 6.4). На основе этого анализа мы разрабатываем адаптивный контроллер, который в реальном времени обнаруживает переходы насыщения и соответствующим образом корректирует параметры маршрутизации, переходя от использования привязки к кэшу к балансировке нагрузки и избежанию перегрузок. Мы реализуем нашу структуру на кластере из трех узлов NVIDIA B200, работающем с Dynamo и двумя моделями, Nemotron-4-340B (TP=8, полноузловые воркеры с межузловыми KV-передачами через InfiniBand) и Llama-3.1-70B (TP=4), и обнаруживаем ту же трехрежимную структуру PoA-шляпки с той же первой точкой сетки после колена (C=128) для обеих моделей. Адаптивная маршрутизация переводит каждую модель в лучшую рабочую точку. Наш самый сильный результат получен на топологии 1P/5D модели 70B, где PoA-шляпка снижается в 3,1 раза (с 66,4 до 21,5) в фазе насыщения при снижении пропускной способности на 13%. На топологии 1P/2D модели 70B PoA-шляпка снижается в 2,2 раза, а P99 времени до первого токена (TTFT) — в 7,6 раза (см. раздел 8.5).

English

Disaggregated inference architectures physically separate prefill and decode phases onto distinct GPU pools, creating competing "agents" that share a fixed hardware budget. We provide, to our knowledge, the first formal game-theoretic analysis of this architecture, using NVIDIA Dynamo as a concrete case study. We model disaggregated serving as three coupled games: a two-player resource game between prefill and decode pools, a selfish caching game over the hierarchical KV cache, and a congestion game with positive externalities for request routing. We empirically validate the latter two; the P/D resource game is treated analytically (Section 9.2). We characterize how GPU saturation induces regime transitions that shift the game's payoff structure: below saturation, selfish behavior has bounded Price of Anarchy (PoA); at saturation, superlinear latency and cache externalities drive our empirical estimator PoA-hat (defined in Section 6.4) upward. Based on this analysis, we design an adaptive controller that detects saturation transitions in real time and adjusts routing parameters accordingly, shifting from cache-affinity exploitation to load-balanced congestion avoidance. We instantiate our framework on a 3-node NVIDIA B200 cluster running Dynamo with two models, Nemotron-4-340B (TP=8, full-node workers with cross-InfiniBand KV transfers) and Llama-3.1-70B (TP=4), and find the same three-regime PoA-hat structure with the same first post-knee grid point (C=128) on both models. Adaptive routing shifts each model to a better operating point. Our strongest result is on the 70B 1P/5D topology, where PoA-hat drops 3.1x (66.4 to 21.5) in the saturated phase at a 13% throughput cost. On the 70B 1P/2D, PoA-hat drops 2.2x and TTFT P99 drops 7.6x (see Section 8.5).