TIDE : Inférence efficace et sans perte de LLM par diffusion avec MoE via un déchargement d'experts tenant compte des E/S

Résumé

Les Modèles de Langage de Grande Taille par Diffusion (dLLMs) sont devenus une alternative compétitive aux modèles autorégressifs (AR), offrant une meilleure utilisation du matériel et un contexte bidirectionnel grâce au décodage parallèle par blocs. Cependant, alors que les dLLMs continuent de monter en échelle avec des architectures à mélange d’experts (MoE), leur déploiement sur des dispositifs à ressources limitées reste un défi ouvert. Les méthodes AR existantes entraînent souvent soit des surcoûts d’E/S prohibitifs, soit des goulots d’étranglement de calcul significatifs. Dans ce travail, nous proposons TIDE, un nouveau système d’inférence économe en ressources qui exploite la stabilité temporelle des activations des experts au cours du processus de diffusion à l’intérieur du bloc. Plus précisément, nous exploitons la stabilité temporelle des activations des experts pendant la diffusion intra-bloc et introduisons une stratégie de rafraîchissement des experts basée sur des intervalles, qui met à jour le placement des experts en tenant compte des E/S. Pour garantir des performances optimales, nous formulons l’ordonnancement de l’inférence comme un problème de programmation mathématique, résolvant l’intervalle optimal qui minimise le trafic d’E/S et le calcul CPU. Le plus important est que TIDE constitue une optimisation sans perte ne nécessitant aucun entraînement de modèle, offrant ainsi une accélération « repas gratuit » pour l’inférence des dLLMs. Sur un système à un seul GPU-CPU, nous démontrons que TIDE atteint des améliorations de débit allant jusqu’à 1,4 fois et 1,5 fois par rapport aux références antérieures sur les modèles LLaDA2.0-mini et LLaDA2.0-flash, respectivement.

English

Diffusion Large Language Models (dLLMs) have emerged as a competitive alternative to autoregressive (AR) models, offering better hardware utilization and bidirectional context through parallel block-level decoding. However, as dLLMs continue to scale up with mixture-of-experts (MoE) architectures, their deployment on resource-constrained devices remains an open challenge. Existing AR-based methods often incur either prohibitive I/O overhead or significant compute bottlenecks. In this work, we propose TIDE, a novel resource-efficient inference system that leverages the temporal stability of expert activations during the diffusion process within the block. Specifically, we leverage the temporal stability of expert activations during the diffusion process within the block and introduce an interval-based expert refresh strategy that updates the expert placement in an I/O-aware fashion. To ensure optimal performance, we formulate the inference scheduling as a mathematical programming problem, solving for the optimal interval that minimizes I/O traffic and CPU computation. Most importantly, TIDE is a lossless optimization that requires no model training, providing a "free lunch" acceleration for dLLM inference. In a single GPU-CPU system, we demonstrate that TIDE achieves up to 1.4times and 1.5times throughput improvements over prior baselines on LLaDA2.0-mini and LLaDA2.0-flash models, respectively.