TIDE: Effiziente und verlustfreie MoE-Diffusions-LLM-Inferenz mit I/O-bewusstem Experten-Offloading

Zusammenfassung

Diffusion Large Language Models (dLLMs) haben sich als wettbewerbsfähige Alternative zu autoregressiven (AR) Modellen etabliert, da sie durch parallele blockweise Dekodierung eine bessere Hardwareauslastung und bidirektionalen Kontext bieten. Mit der zunehmenden Skalierung von dLLMs mittels Mixture-of-Experts (MoE)-Architekturen bleibt deren Einsatz auf ressourcenbeschränkten Geräten jedoch eine offene Herausforderung. Bestehende AR-basierte Methoden verursachen entweder prohibitive E/A-Overheads oder signifikante Rechenengpässe. In dieser Arbeit schlagen wir TIDE vor, ein neuartiges ressourceneffizientes Inferenzsystem, das die zeitliche Stabilität von Expertenaktivierungen während des Diffusionsprozesses innerhalb des Blocks nutzt. Konkret nutzen wir die zeitliche Stabilität von Expertenaktivierungen während des Diffusionsprozesses innerhalb des Blocks und führen eine intervallsbasierte Expertenaktualisierungsstrategie ein, die die Expertenplatzierung in E/A-bewusster Weise aktualisiert. Um optimale Leistung zu gewährleisten, formulieren wir die Inferenzplanung als mathematisches Optimierungsproblem und ermitteln das optimale Intervall, das den E/A-Verkehr und die CPU-Berechnung minimiert. Am wichtigsten ist, dass TIDE eine verlustfreie Optimierung darstellt, die kein Modelltraining erfordert und eine "Free Lunch"-Beschleunigung für die dLLM-Inferenz bietet. In einem Ein-GPU-CPU-System demonstrieren wir, dass TIDE Durchsatzverbesserungen von bis zu 1,4-fach bzw. 1,5-fach gegenüber bisherigen Basislinienmodellen auf LLaDA2.0-mini bzw. LLaDA2.0-flash erzielt.

English

Diffusion Large Language Models (dLLMs) have emerged as a competitive alternative to autoregressive (AR) models, offering better hardware utilization and bidirectional context through parallel block-level decoding. However, as dLLMs continue to scale up with mixture-of-experts (MoE) architectures, their deployment on resource-constrained devices remains an open challenge. Existing AR-based methods often incur either prohibitive I/O overhead or significant compute bottlenecks. In this work, we propose TIDE, a novel resource-efficient inference system that leverages the temporal stability of expert activations during the diffusion process within the block. Specifically, we leverage the temporal stability of expert activations during the diffusion process within the block and introduce an interval-based expert refresh strategy that updates the expert placement in an I/O-aware fashion. To ensure optimal performance, we formulate the inference scheduling as a mathematical programming problem, solving for the optimal interval that minimizes I/O traffic and CPU computation. Most importantly, TIDE is a lossless optimization that requires no model training, providing a "free lunch" acceleration for dLLM inference. In a single GPU-CPU system, we demonstrate that TIDE achieves up to 1.4times and 1.5times throughput improvements over prior baselines on LLaDA2.0-mini and LLaDA2.0-flash models, respectively.