区块扩散:自回归与扩散语言模型间的插值Block Diffusion: Interpolating Between Autoregressive and Diffusion
Language Models
扩散语言模型相较于自回归模型展现出独特优势,其并行生成潜力与可控性尤为突出,然而在似然建模方面稍显不足,且局限于固定长度生成。本研究提出了一类块扩散语言模型,巧妙融合了离散去噪扩散与自回归模型的特点。块扩散技术通过支持灵活长度生成,并利用KV缓存与并行令牌采样提升推理效率,成功克服了两种方法的关键局限。我们提出了一套构建高效块扩散模型的方案,包括高效的训练算法、梯度方差估计器以及数据驱动的噪声调度策略,以最小化方差。在语言建模基准测试中,块扩散模型确立了扩散模型的新标杆,并实现了任意长度序列的生成。项目页面提供了代码、模型权重及博客文章,详情请访问:https://m-arriola.com/bd3lms/。