ChatPaper.aiChatPaper

순차적 확산 언어 모델

Sequential Diffusion Language Models

September 28, 2025
저자: Yangzhou Liu, Yue Cao, Hao Li, Gen Luo, Zhe Chen, Weiyun Wang, Xiaobo Liang, Biqing Qi, Lijun Wu, Changyao Tian, Yanting Zhang, Yuqiang Li, Tong Lu, Yu Qiao, Jifeng Dai, Wenhai Wang
cs.AI

초록

확산 언어 모델(Diffusion Language Models, DLMs)은 이론적으로 높은 효율성을 지니지만, 고정된 길이의 디코딩과 키-값(Key-Value, KV) 캐시와의 비호환성으로 인해 제한적입니다. 블록 확산(Block Diffusion)은 이러한 문제를 완화하지만, 여전히 고정된 블록 크기를 강제하며 비용이 많이 드는 학습이 필요합니다. 본 연구에서는 다음 토큰 예측과 다음 블록 예측을 통합한 **다음 시퀀스 예측(Next Sequence Prediction, NSP)**을 제안합니다. 이를 통해 모델이 각 단계에서 생성 길이를 적응적으로 결정할 수 있게 합니다. 길이가 1로 고정된 경우, NSP는 표준 다음 토큰 예측으로 축소됩니다. NSP를 기반으로, 우리는 **순차적 확산 언어 모델(Sequential Diffusion Language Model, SDLM)**을 제안합니다. SDLM은 사전 학습된 자기회귀 언어 모델(Autoregressive Language Models, ALMs)을 최소 비용으로 개조할 수 있습니다. 구체적으로, SDLM은 고정 크기의 마스크 블록 내에서 확산 추론을 수행하지만, 모델의 신뢰도를 기반으로 연속적인 하위 시퀀스를 동적으로 디코딩함으로써 KV 캐시 호환성을 유지하고 시퀀스 전반에 걸친 다양한 불확실성과 의미론적 변화에 대한 견고성을 향상시킵니다. 실험 결과, SDLM은 단 350만 개의 학습 샘플만을 사용하여 강력한 자기회귀 기준 모델을 능가하거나 동등한 성능을 보이며, Qwen-2.5 대비 2.1배 높은 처리량을 달성했습니다. 특히, SDLM-32B 모델은 더욱 두드러진 효율성 향상을 보여주며, 우리의 모델링 패러다임의 강력한 확장 가능성을 입증했습니다. 프로젝트 페이지 및 코드: https://github.com/OpenGVLab/SDLM
English
Diffusion language models (DLMs) have strong theoretical efficiency but are limited by fixed-length decoding and incompatibility with key-value (KV) caches. Block diffusion mitigates these issues, yet still enforces a fixed block size and requires expensive training. We introduce Next Sequence Prediction (NSP), which unifies next-token and next-block prediction, enabling the model to adaptively determine the generation length at each step. When the length is fixed to 1, NSP reduces to standard next-token prediction. Building on NSP, we propose Sequential Diffusion Language Model (SDLM), which can retrofit pre-trained autoregressive language models (ALMs) at minimal cost. Specifically, SDLM performs diffusion inference within fixed-size mask blocks, but dynamically decodes consecutive subsequences based on model confidence, thereby preserving KV-cache compatibility and improving robustness to varying uncertainty and semantics across the sequence. Experiments show that SDLM matches or surpasses strong autoregressive baselines using only 3.5M training samples, while achieving 2.1 higher throughput than Qwen-2.5. Notably, the SDLM-32B model delivers even more pronounced efficiency gains, demonstrating the strong scalability potential of our modeling paradigm. Project page and codes: https://github.com/OpenGVLab/SDLM
PDF222September 30, 2025