LoPA: Scalabilità dell'Inferenza dei dLLM tramite Decodifica Parallela Lookahead

Abstract

I modelli linguistici di grandi dimensioni basati su diffusione (dLLM) hanno dimostrato un potenziale significativo per l'inferenza ad alta velocità. Tuttavia, le attuali strategie di decodifica guidate dalla confidenza sono limitate da un parallelismo ridotto, raggiungendo tipicamente solo 1-3 token per passaggio in avanti (TPF). In questo lavoro, identifichiamo che il grado di parallelismo durante l'inferenza dei dLLM è altamente sensibile all'Ordine di Riempimento dei Token (TFO). Introduciamo quindi Lookahead PArallel Decoding (LoPA), un algoritmo plug-and-play che non richiede addestramento, per identificare un TFO superiore e quindi accelerare l'inferenza. LoPA esplora contemporaneamente distinti candidati TFO tramite rami paralleli e seleziona quello con il maggior potenziale di parallelismo futuro in base alla confidenza del ramo. Applichiamo LoPA al modello D2F all'avanguardia e osserviamo un sostanziale miglioramento nell'efficienza di decodifica. In particolare, LoPA aumenta il TPF di D2F-Dream a 10,1 sul dataset GSM8K mantenendo prestazioni superiori alla baseline Dream. Inoltre, per facilitare questo grado di parallelismo senza precedenti, sviluppiamo un sistema di inferenza multi-dispositivo specializzato che utilizza il Parallelismo di Rami (BP), il quale raggiunge un throughput per singolo campione di 1073,9 token al secondo in uno scenario di deployment multi-GPU. Il codice è disponibile all'indirizzo https://github.com/zhijie-group/LoPA.

English

Diffusion Large Language Models (dLLMs) have demonstrated significant potential for high-speed inference. However, current confidence-driven decoding strategies are constrained by limited parallelism, typically achieving only 1--3 tokens per forward pass (TPF). In this work, we identify that the degree of parallelism during dLLM inference is highly sensitive to the Token Filling Order (TFO). Then, we introduce Lookahead PArallel Decoding LoPA, a training-free, plug-and-play algorithm, to identify a superior TFO and hence accelerate inference. LoPA concurrently explores distinct candidate TFOs via parallel branches, and selects the one with the highest potential for future parallelism based on branch confidence. We apply LoPA to the state-of-the-art D2F model and observe a substantial enhancement in decoding efficiency. Notably, LoPA increases the TPF of D2F-Dream to 10.1 on the GSM8K while maintaining performance superior to the Dream baseline. Furthermore, to facilitate this unprecedented degree of parallelism, we develop a specialized multi-device inference system featuring Branch Parallelism (BP), which achieves a single-sample throughput of 1073.9 tokens per second under multi-GPU deployment. The code is available at https://github.com/zhijie-group/LoPA.

LoPA: Scalabilità dell'Inferenza dei dLLM tramite Decodifica Parallela Lookahead

LoPA: Scaling dLLM Inference via Lookahead Parallel Decoding

Abstract

Support