ChatPaper.aiChatPaper

다음 토큰에서 다음 블록으로: 확산 LLM의 원칙적 적응 경로

From Next-Token to Next-Block: A Principled Adaptation Path for Diffusion LLMs

December 7, 2025
저자: Yuchuan Tian, Yuchen Liang, Jiacheng Sun, Shuo Zhang, Guangwen Yang, Yingte Shu, Sibo Fang, Tianyu Guo, Kai Han, Chao Xu, Hanting Chen, Xinghao Chen, Yunhe Wang
cs.AI

초록

대규모 언어 모델(LLM)은 생성 작업에서 뛰어난 성능을 보이지만, 주류인 자기회귀(AR) 디코딩은 본질적으로 순차적이어서 처리량 병목 현상을 초래합니다. 확산 언어 모델(DLM), 특히 블록 방식 변종은 병렬 생성 및 블록 내 양방향 추론을 가능하게 하지만, 대규모 DLM을 처음부터 학습하는 것은 비용이 많이 들고 성숙한 AR 체크포인트의 지식을 낭비하게 됩니다. 기존의 "적응" 시도는 로짓을 수정하거나 어텐션 마스크를 전체 시퀀스 확산에 무작위로 확장하거나, 단순히 AR 가중치를 블록 확산 방식에 이식하는 데 그쳐 AR의 인과성과 블록 방식의 양방향성 사이의 근본적인 불일치를 해결하지 못했습니다. 우리는 AR을 블록 크기=1인 블록 확산으로 재해석함으로써 적응을 AR에서 블록 확산으로의 패러다임 내 경로로 재정의합니다. 구체적으로, 우리는 다음과 같은 적응 경로를 설계합니다: 컨텍스트-인과적 어텐션 마스크(컨텍스트 내에서는 인과적, 활성 블록 내에서만 양방향), 효율적인 병렬 적응 절차, 데이터 활용도 극대화 및 사전 학습 지식 보존을 위한 보조 AR 손실 함수, 그리고 생성 블록 크기의 점진적 증가입니다. 이 방법론은 마스킹된 블록 확산과 깔끔하게 통합되며 학습-추론 일관성을 유지합니다. 이러한 구성 요소를 바탕으로 개발된 NBDiff-7B(Base 및 Instruct)는 장문 컨텍스트 모델링 및 추론 능력을 계승할 수 있었고, 7B 규모 DLM 중 최고 수준의 성능을 달성하여 일반 지식, 수학, 코드 벤치마크에서 강력한 기준선 대비 상당한 성능 향상을 보여주었습니다. 이러한 결과는 원칙에 기반한 AR-to-블록-확산 적응이 DLM을 처음부터 학습하는 것에 대한 효과적이고 계산 효율적인 대안임을 입증합니다. 코드: https://github.com/YuchuanTian/NBDiff.
English
Large language models (LLMs) excel at generation but dominant autoregressive (AR) decoding is inherently sequential, creating a throughput bottleneck. Diffusion Language Models (DLMs)--especially block-wise variants--enable parallel generation and intra-block bidirectional reasoning, yet training large DLMs from scratch is costly and wastes the knowledge in mature AR checkpoints. Prior "adaptation" attempts either modify logits or randomly grow attention masks to full-sequence diffusion, or simply transplant AR weights into a block-diffusion recipe, leaving a fundamental mismatch between AR causality and block-wise bidirectionality unaddressed. We reframe adaptation as a intra-paradigm path from AR to Block-Diffusion by viewing AR as Block-Diffusion with blocksize=1. Concretely, we design the pathway of adaptation as follows: we use a context-causal attention mask (causal in context, bidirectional only within the active block), an efficient parallel adaptation procedure, an auxiliary AR loss to maximize data utilization and retain pretrained knowledge, and gradual increment of the generation block size. The recipe integrates cleanly with masked block-diffusion and maintains train-inference consistency. Built on these components, NBDiff-7B (Base and Instruct) could inherit the long-context modeling and reasoning capabilities, and achieve state-of-the-art performance among the 7B-class DLMs, delivering strong gains on general-knowledge, math, and code benchmarks over strong baselines. These results demonstrate that principled AR-to-block-diffusion adaptation is an effective and compute-efficient alternative to training DLMs from scratch. Codes: https://github.com/YuchuanTian/NBDiff.
PDF31December 11, 2025