TIDE: Inferência Eficiente e sem Perdas de LLM de Difusão MoE com Offload de Especialistas Consciente de E/S

Resumo

Modelos de Linguagem de Grande Escala de Difusão (dLLMs) surgiram como uma alternativa competitiva aos modelos autorregressivos (AR), oferecendo melhor utilização de hardware e contexto bidirecional por meio de decodificação paralela em nível de bloco. No entanto, à medida que os dLLMs continuam a escalar com arquiteturas de mistura de especialistas (MoE), sua implantação em dispositivos com recursos limitados permanece um desafio em aberto. Métodos existentes baseados em AR frequentemente incorrem em sobrecarga de E/S proibitiva ou gargalos computacionais significativos. Neste trabalho, propomos o TIDE, um novo sistema de inferência eficiente em recursos que aproveita a estabilidade temporal das ativações de especialistas durante o processo de difusão dentro do bloco. Especificamente, aproveitamos a estabilidade temporal das ativações de especialistas durante o processo de difusão dentro do bloco e introduzimos uma estratégia de atualização de especialistas baseada em intervalos que atualiza o posicionamento dos especialistas de forma consciente da E/S. Para garantir desempenho ideal, formulamos o agendamento de inferência como um problema de programação matemática, resolvendo para o intervalo ótimo que minimiza o tráfego de E/S e a computação da CPU. Mais importante ainda, o TIDE é uma otimização sem perdas que não requer treinamento do modelo, proporcionando uma aceleração "almoço grátis" para a inferência de dLLMs. Em um sistema com uma única GPU-CPU, demonstramos que o TIDE alcança melhorias de vazão de até 1,4x e 1,5x em relação às linhas de base anteriores nos modelos LLaDA2.0-mini e LLaDA2.0-flash, respectivamente.

English

Diffusion Large Language Models (dLLMs) have emerged as a competitive alternative to autoregressive (AR) models, offering better hardware utilization and bidirectional context through parallel block-level decoding. However, as dLLMs continue to scale up with mixture-of-experts (MoE) architectures, their deployment on resource-constrained devices remains an open challenge. Existing AR-based methods often incur either prohibitive I/O overhead or significant compute bottlenecks. In this work, we propose TIDE, a novel resource-efficient inference system that leverages the temporal stability of expert activations during the diffusion process within the block. Specifically, we leverage the temporal stability of expert activations during the diffusion process within the block and introduce an interval-based expert refresh strategy that updates the expert placement in an I/O-aware fashion. To ensure optimal performance, we formulate the inference scheduling as a mathematical programming problem, solving for the optimal interval that minimizes I/O traffic and CPU computation. Most importantly, TIDE is a lossless optimization that requires no model training, providing a "free lunch" acceleration for dLLM inference. In a single GPU-CPU system, we demonstrate that TIDE achieves up to 1.4times and 1.5times throughput improvements over prior baselines on LLaDA2.0-mini and LLaDA2.0-flash models, respectively.