Modelli linguistici sequenziali a diffusione

Abstract

I modelli linguistici di diffusione (DLM) vantano una forte efficienza teorica, ma sono limitati dalla decodifica a lunghezza fissa e dall'incompatibilità con le cache chiave-valore (KV). La diffusione a blocchi mitiga questi problemi, ma impone comunque una dimensione fissa del blocco e richiede un addestramento costoso. Introduciamo la Predizione della Sequenza Successiva (NSP), che unisce la predizione del token successivo e del blocco successivo, consentendo al modello di determinare in modo adattivo la lunghezza della generazione ad ogni passo. Quando la lunghezza è fissata a 1, la NSP si riduce alla predizione standard del token successivo. Basandoci sulla NSP, proponiamo il Modello Linguistico di Diffusione Sequenziale (SDLM), che può adattare modelli linguistici autoregressivi (ALM) pre-addestrati a costi minimi. Nello specifico, l'SDLM esegue inferenza di diffusione all'interno di blocchi di maschera di dimensione fissa, ma decodifica dinamicamente sottosequenze consecutive in base alla confidenza del modello, preservando così la compatibilità con le cache KV e migliorando la robustezza rispetto a incertezze e semantica variabili lungo la sequenza. Gli esperimenti dimostrano che l'SDLM eguaglia o supera i solidi baseline autoregressivi utilizzando solo 3,5 milioni di campioni di addestramento, raggiungendo un throughput 2,1 volte superiore rispetto a Qwen-2.5. In particolare, il modello SDLM-32B mostra guadagni di efficienza ancora più marcati, dimostrando il forte potenziale di scalabilità del nostro paradigma di modellazione. Pagina del progetto e codici: https://github.com/OpenGVLab/SDLM

English

Diffusion language models (DLMs) have strong theoretical efficiency but are limited by fixed-length decoding and incompatibility with key-value (KV) caches. Block diffusion mitigates these issues, yet still enforces a fixed block size and requires expensive training. We introduce Next Sequence Prediction (NSP), which unifies next-token and next-block prediction, enabling the model to adaptively determine the generation length at each step. When the length is fixed to 1, NSP reduces to standard next-token prediction. Building on NSP, we propose Sequential Diffusion Language Model (SDLM), which can retrofit pre-trained autoregressive language models (ALMs) at minimal cost. Specifically, SDLM performs diffusion inference within fixed-size mask blocks, but dynamically decodes consecutive subsequences based on model confidence, thereby preserving KV-cache compatibility and improving robustness to varying uncertainty and semantics across the sequence. Experiments show that SDLM matches or surpasses strong autoregressive baselines using only 3.5M training samples, while achieving 2.1 higher throughput than Qwen-2.5. Notably, the SDLM-32B model delivers even more pronounced efficiency gains, demonstrating the strong scalability potential of our modeling paradigm. Project page and codes: https://github.com/OpenGVLab/SDLM

Modelli linguistici sequenziali a diffusione

Sequential Diffusion Language Models

Abstract

Support