TIDE: Эффективный и без потерь инференс MoE диффузионной LLM с I/O-aware выгрузкой экспертов

Аннотация

Диффузионные большие языковые модели (dLLM) стали конкурентоспособной альтернативой авторегрессионным (AR) моделям, обеспечивая более эффективное использование аппаратного обеспечения и двунаправленный контекст благодаря параллельному декодированию на уровне блоков. Однако с дальнейшим масштабированием dLLM на основе архитектур смеси экспертов (MoE) их развертывание на устройствах с ограниченными ресурсами остается открытой задачей. Существующие AR-методы часто приводят либо к непомерным накладным расходам на ввод-вывод, либо к существенным вычислительным узким местам. В данной работе мы предлагаем TIDE — новую ресурсоэффективную систему вывода, использующую временную устойчивость активаций экспертов в процессе диффузии внутри блока. А именно, мы используем временную устойчивость активаций экспертов в процессе диффузии внутри блока и вводим интервальную стратегию обновления экспертов, которая обновляет размещение экспертов с учетом ввода-вывода. Для обеспечения оптимальной производительности мы формулируем планирование вывода как задачу математического программирования, решая задачу поиска оптимального интервала, минимизирующего трафик ввода-вывода и вычисления на ЦП. Наиболее важно то, что TIDE представляет собой оптимизацию без потерь, не требующую обучения модели, и обеспечивает «бесплатный обед» — ускорение вывода dLLM. В системе с одним GPU-CPU мы демонстрируем, что TIDE достигает улучшения пропускной способности до 1,4 и 1,5 раз по сравнению с предыдущими базовыми методами на моделях LLaDA2.0-mini и LLaDA2.0-flash соответственно.

English

Diffusion Large Language Models (dLLMs) have emerged as a competitive alternative to autoregressive (AR) models, offering better hardware utilization and bidirectional context through parallel block-level decoding. However, as dLLMs continue to scale up with mixture-of-experts (MoE) architectures, their deployment on resource-constrained devices remains an open challenge. Existing AR-based methods often incur either prohibitive I/O overhead or significant compute bottlenecks. In this work, we propose TIDE, a novel resource-efficient inference system that leverages the temporal stability of expert activations during the diffusion process within the block. Specifically, we leverage the temporal stability of expert activations during the diffusion process within the block and introduce an interval-based expert refresh strategy that updates the expert placement in an I/O-aware fashion. To ensure optimal performance, we formulate the inference scheduling as a mathematical programming problem, solving for the optimal interval that minimizes I/O traffic and CPU computation. Most importantly, TIDE is a lossless optimization that requires no model training, providing a "free lunch" acceleration for dLLM inference. In a single GPU-CPU system, we demonstrate that TIDE achieves up to 1.4times and 1.5times throughput improvements over prior baselines on LLaDA2.0-mini and LLaDA2.0-flash models, respectively.