dInfer: Эффективный фреймворк для вывода в диффузионных языковых моделях

Аннотация

Диффузионные модели больших языковых моделей (dLLM) стали перспективной альтернативой авторегрессивным (AR) LLM, используя генерацию на основе удаления шума для обеспечения внутреннего параллелизма. Несмотря на появление всё большего числа открытых моделей dLLM, их широкое применение ограничено отсутствием стандартизированной и эффективной инфраструктуры для вывода. Мы представляем dInfer — эффективную и расширяемую инфраструктуру для вывода dLLM. dInfer разделяет процесс вывода на четыре модульных компонента — модель, менеджер итераций диффузии, стратегия декодирования и менеджер KV-кэша — и интегрирует новые алгоритмы для каждого компонента вместе с оптимизациями на уровне системы. Благодаря сочетанию алгоритмических инноваций и системных улучшений, dInfer достигает значительного повышения эффективности без ущерба для качества вывода на модели LLaDA-MoE. При размере пакета 1 он превышает 1100 токенов в секунду на HumanEval и в среднем более 800 токенов в секунду на шести бенчмарках с использованием 8× H800 GPU. По сравнению с предыдущими системами, dInfer обеспечивает 10-кратное ускорение по сравнению с Fast-dLLM при сохранении аналогичной производительности модели. Даже в сравнении с AR-моделью (с сопоставимым количеством активационных параметров и производительностью) QWen2.5-3B, которая оптимизирована с использованием последней версии движка vLLM, dInfer всё же обеспечивает 2-3-кратное ускорение. Реализация dInfer доступна в открытом исходном коде по адресу https://github.com/inclusionAI/dInfer.

English

Diffusion-based large language models (dLLMs) have emerged as a promising alternative to autoregressive (AR) LLMs, leveraging denoising-based generation to enable inherent parallelism. Even more and more open-sourced dLLM models emerge, yet their widespread adoption remains constrained by the lack of a standardized and efficient inference framework. We present dInfer, an efficient and extensible framework for dLLM inference. dInfer decomposes the inference pipeline into four modular components--model, diffusion iteration manager, decoding strategy, and KV-cache manager--and integrates novel algorithms for each component alongside system-level optimizations. Through this combination of algorithmic innovations and system enhancements, dInfer achieves substantial efficiency gains without compromising output quality on LLaDA-MoE. At batch size 1, it surpasses 1,100 tokens per second on HumanEval and averages over 800 tokens per second across six benchmarks on 8times H800 GPUs. Compared to prior systems, dInfer delivers a 10times speedup over Fast-dLLM while maintaining similar model performance. Even compared to the AR model (with a comparable number of activation parameters and performance) QWen2.5-3B, which is highly optimized with the latest vLLM inference engine, dInfer still delivers a 2-3times speedup. The implementation of dInfer is open-sourced at https://github.com/inclusionAI/dInfer.

dInfer: Эффективный фреймворк для вывода в диффузионных языковых моделях

dInfer: An Efficient Inference Framework for Diffusion Language Models

Аннотация

Support