Modelli linguistici sequenziali a diffusione
Sequential Diffusion Language Models
September 28, 2025
Autori: Yangzhou Liu, Yue Cao, Hao Li, Gen Luo, Zhe Chen, Weiyun Wang, Xiaobo Liang, Biqing Qi, Lijun Wu, Changyao Tian, Yanting Zhang, Yuqiang Li, Tong Lu, Yu Qiao, Jifeng Dai, Wenhai Wang
cs.AI
Abstract
I modelli linguistici di diffusione (DLM) vantano una forte efficienza teorica, ma sono limitati dalla decodifica a lunghezza fissa e dall'incompatibilità con le cache chiave-valore (KV). La diffusione a blocchi mitiga questi problemi, ma impone comunque una dimensione fissa del blocco e richiede un addestramento costoso. Introduciamo la Predizione della Sequenza Successiva (NSP), che unisce la predizione del token successivo e del blocco successivo, consentendo al modello di determinare in modo adattivo la lunghezza della generazione ad ogni passo. Quando la lunghezza è fissata a 1, la NSP si riduce alla predizione standard del token successivo. Basandoci sulla NSP, proponiamo il Modello Linguistico di Diffusione Sequenziale (SDLM), che può adattare modelli linguistici autoregressivi (ALM) pre-addestrati a costi minimi. Nello specifico, l'SDLM esegue inferenza di diffusione all'interno di blocchi di maschera di dimensione fissa, ma decodifica dinamicamente sottosequenze consecutive in base alla confidenza del modello, preservando così la compatibilità con le cache KV e migliorando la robustezza rispetto a incertezze e semantica variabili lungo la sequenza. Gli esperimenti dimostrano che l'SDLM eguaglia o supera i solidi baseline autoregressivi utilizzando solo 3,5 milioni di campioni di addestramento, raggiungendo un throughput 2,1 volte superiore rispetto a Qwen-2.5. In particolare, il modello SDLM-32B mostra guadagni di efficienza ancora più marcati, dimostrando il forte potenziale di scalabilità del nostro paradigma di modellazione. Pagina del progetto e codici: https://github.com/OpenGVLab/SDLM
English
Diffusion language models (DLMs) have strong theoretical efficiency but are
limited by fixed-length decoding and incompatibility with key-value (KV)
caches. Block diffusion mitigates these issues, yet still enforces a fixed
block size and requires expensive training. We introduce Next Sequence
Prediction (NSP), which unifies next-token and next-block prediction, enabling
the model to adaptively determine the generation length at each step. When the
length is fixed to 1, NSP reduces to standard next-token prediction. Building
on NSP, we propose Sequential Diffusion Language Model (SDLM), which can
retrofit pre-trained autoregressive language models (ALMs) at minimal cost.
Specifically, SDLM performs diffusion inference within fixed-size mask blocks,
but dynamically decodes consecutive subsequences based on model confidence,
thereby preserving KV-cache compatibility and improving robustness to varying
uncertainty and semantics across the sequence. Experiments show that SDLM
matches or surpasses strong autoregressive baselines using only 3.5M training
samples, while achieving 2.1 higher throughput than Qwen-2.5. Notably, the
SDLM-32B model delivers even more pronounced efficiency gains, demonstrating
the strong scalability potential of our modeling paradigm. Project page and
codes: https://github.com/OpenGVLab/SDLM