TIDE: Inferencia eficiente y sin pérdidas de MoE Diffusion LLM con descarga de expertos consciente de E/S

Resumen

Los modelos de lenguaje grandes de difusión (dLLMs, por sus siglas en inglés) han surgido como una alternativa competitiva a los modelos autorregresivos (AR), ofreciendo una mejor utilización del hardware y contexto bidireccional mediante decodificación paralela a nivel de bloque. Sin embargo, a medida que los dLLMs continúan escalando con arquitecturas de mezcla de expertos (MoE), su despliegue en dispositivos con recursos limitados sigue siendo un desafío abierto. Los métodos existentes basados en AR a menudo incurren en una sobrecarga de E/S prohibitiva o en cuellos de botella computacionales significativos. En este trabajo, proponemos TIDE, un novedoso sistema de inferencia eficiente en recursos que aprovecha la estabilidad temporal de las activaciones de expertos durante el proceso de difusión dentro del bloque. Específicamente, aprovechamos la estabilidad temporal de las activaciones de expertos durante el proceso de difusión dentro del bloque e introducimos una estrategia de actualización de expertos basada en intervalos que actualiza la ubicación de los expertos de manera consciente de la E/S. Para garantizar un rendimiento óptimo, formulamos la programación de la inferencia como un problema de programación matemática, resolviendo el intervalo óptimo que minimiza el tráfico de E/S y el cómputo de la CPU. Más importante aún, TIDE es una optimización sin pérdidas que no requiere entrenamiento del modelo, proporcionando una aceleración de "comida gratis" para la inferencia de dLLM. En un sistema con una sola GPU-CPU, demostramos que TIDE logra mejoras de rendimiento de hasta 1.4 y 1.5 veces en comparación con las líneas base anteriores en los modelos LLaDA2.0-mini y LLaDA2.0-flash, respectivamente.

English

Diffusion Large Language Models (dLLMs) have emerged as a competitive alternative to autoregressive (AR) models, offering better hardware utilization and bidirectional context through parallel block-level decoding. However, as dLLMs continue to scale up with mixture-of-experts (MoE) architectures, their deployment on resource-constrained devices remains an open challenge. Existing AR-based methods often incur either prohibitive I/O overhead or significant compute bottlenecks. In this work, we propose TIDE, a novel resource-efficient inference system that leverages the temporal stability of expert activations during the diffusion process within the block. Specifically, we leverage the temporal stability of expert activations during the diffusion process within the block and introduce an interval-based expert refresh strategy that updates the expert placement in an I/O-aware fashion. To ensure optimal performance, we formulate the inference scheduling as a mathematical programming problem, solving for the optimal interval that minimizes I/O traffic and CPU computation. Most importantly, TIDE is a lossless optimization that requires no model training, providing a "free lunch" acceleration for dLLM inference. In a single GPU-CPU system, we demonstrate that TIDE achieves up to 1.4times and 1.5times throughput improvements over prior baselines on LLaDA2.0-mini and LLaDA2.0-flash models, respectively.