Janus: Het Scheiden van Aandacht en Experts voor Schaalbare MoE-Inferentie

Samenvatting

Grootschalige inferentie van Mixture-of-Experts (MoE)-modellen is uitdagend vanwege de hoge resourcebehoeften en dynamische werklasten. Bestaande oplossingen implementeren het gehele model vaak als één monolitische eenheid, waarbij een uniforme resourceconfiguratie wordt toegepast op zowel aandacht- als expertmodules, ondanks hun verschillende vereisten. Dit leidt tot beperkte schaalbaarheid en inefficiënt resourcegebruik. In dit artikel stellen we Janus voor, een schaalbaar MoE-inferentiesysteem dat aandacht en experts disaggregreert op gescheiden GPU-subclusters, waardoor elke module onafhankelijk kan worden beheerd en geschaald. Janus bevat drie belangrijke ontwerpen voor efficiënte, gedisaggregeerde MoE-inferentie. Ten eerste stelt het een adaptief tweefasencommunicatieschema voor dat gebruikmaakt van intra- en inter-node bandbreedtehiërarchieën voor gegevensuitwisseling met lage latentie. Ten tweede, gemotiveerd door het geheugengebonden karakter van MoE-modules, introduceert Janus een lichtgewicht planner en implementeert deze als een GPU-kernel om het aantal geactiveerde experts over GPU's te verdelen met minimale overhead, waardoor de inferentielatentie wordt verminderd. Ten derde voert Janus fijnmazig resourcebeheer uit om de plaatsing van experts dynamisch aan te passen en aandacht- en MoE-resources onafhankelijk te schalen om de algehele efficiëntie te verbeteren. Evaluatie toont aan dat Janus tot 3,9 keer hogere doorvoer per GPU bereikt dan state-of-the-art systemen, terwijl wordt voldaan aan de latentievereisten per token.

English

Large Mixture-of-Experts (MoE) model inference is challenging due to high resource demands and dynamic workloads. Existing solutions often deploy the entire model as a single monolithic unit, which applies a unified resource configuration to both attention and expert modules despite their different requirements, leading to limited scalability and resource inefficiency. In this paper, we propose Janus, a scalable MoE inference system that disaggregates attention and experts on separate GPU sub-clusters, enabling each module to be managed and scaled independently. Janus incorporates three key designs for efficient, disaggregated MoE inference. First, it proposes an adaptive two-phase communication scheme that exploits intra- and inter-node bandwidth hierarchies for low-latency data exchange. Second, motivated by the memory-bound nature of MoE modules, Janus introduces a lightweight scheduler and implements it as a GPU kernel to balance the number of activated experts across GPUs at minimal overhead, thereby reducing inference latency. Third, Janus performs fine-grained resource management to dynamically adjust expert placement and independently scale attention and MoE resources to improve overall efficiency. Evaluation shows Janus achieves up to 3.9 higher perGPU throughput than state-of-the-art systems while meeting per-token latency requirements.

Janus: Het Scheiden van Aandacht en Experts voor Schaalbare MoE-Inferentie

Janus: Disaggregating Attention and Experts for Scalable MoE Inference

Samenvatting

Support