LoPA: Масштабирование вывода dLLM с помощью опережающего параллельного декодирования

Аннотация

Диффузионные большие языковые модели (dLLM) продемонстрировали значительный потенциал для высокоскоростного вывода. Однако современные стратегии декодирования, основанные на уверенности, ограничены низкой степенью параллелизма, обычно достигая лишь 1–3 токенов за один прямой проход (TPF). В данной работе мы выявляем, что степень параллелизма при выводе в dLLM сильно зависит от порядка заполнения токенов (TFO). Затем мы представляем Lookahead PArallel Decoding LoPA — бесплатный, готовый к использованию алгоритм, не требующий дообучения, для определения оптимального TFO и, как следствие, ускорения вывода. LoPA параллельно исследует различные кандидаты TFO через параллельные ветви и выбирает вариант с наибольшим потенциалом для будущего параллелизма на основе уверенности ветвей. Мы применяем LoPA к передовой модели D2F и наблюдаем существенное повышение эффективности декодирования. Примечательно, что LoPA увеличивает TPF модели D2F-Dream до 10.1 на наборе данных GSM8K при сохранении производительности, превосходящей базовый уровень Dream. Кроме того, для обеспечения такой беспрецедентной степени параллелизма мы разработали специализированную систему вывода для нескольких устройств, реализующую параллелизм ветвей (BP), которая достигает пропускной способности на один образец в 1073.9 токенов в секунду при развертывании на нескольких GPU. Код доступен по адресу https://github.com/zhijie-group/LoPA.

English

Diffusion Large Language Models (dLLMs) have demonstrated significant potential for high-speed inference. However, current confidence-driven decoding strategies are constrained by limited parallelism, typically achieving only 1--3 tokens per forward pass (TPF). In this work, we identify that the degree of parallelism during dLLM inference is highly sensitive to the Token Filling Order (TFO). Then, we introduce Lookahead PArallel Decoding LoPA, a training-free, plug-and-play algorithm, to identify a superior TFO and hence accelerate inference. LoPA concurrently explores distinct candidate TFOs via parallel branches, and selects the one with the highest potential for future parallelism based on branch confidence. We apply LoPA to the state-of-the-art D2F model and observe a substantial enhancement in decoding efficiency. Notably, LoPA increases the TPF of D2F-Dream to 10.1 on the GSM8K while maintaining performance superior to the Dream baseline. Furthermore, to facilitate this unprecedented degree of parallelism, we develop a specialized multi-device inference system featuring Branch Parallelism (BP), which achieves a single-sample throughput of 1073.9 tokens per second under multi-GPU deployment. The code is available at https://github.com/zhijie-group/LoPA.

LoPA: Масштабирование вывода dLLM с помощью опережающего параллельного декодирования

LoPA: Scaling dLLM Inference via Lookahead Parallel Decoding

Аннотация

Support