FourierSampler: 周波数誘導生成による拡散言語モデルの非自己回帰的潜在能力の解放
FourierSampler: Unlocking Non-Autoregressive Potential in Diffusion Language Models via Frequency-Guided Generation
January 30, 2026
著者: Siyang He, Qiqi Wang, Xiaoran Liu, Hongnan Ma, Yiwei Shi, Yuerong Song, Ying Zhu, Tianyi Liang, Zengfeng Huang, Ziwei He, Xipeng Qiu
cs.AI
要旨
拡散言語モデル(dLLM)の非自己回帰的潜在能力にもかかわらず、既存のデコード戦略は位置バイアスを示し、任意生成の可能性を十分に引き出せていない。本研究では、dLLMの内在的なスペクトル特性を探求し、隠れ状態における低周波成分が主に大域的な構造情報と長距離依存関係を符号化し、高周波成分が局所的な詳細の特徴付けを担うことを示す初の周波数領域解析を提示する。この知見に基づき、周波数領域スライディングウィンドウ機構を活用して「構造から詳細へ」の生成を動的に誘導するFourierSamplerを提案する。FourierSamplerはLLADAとSDARにおいて他の推論強化戦略を上回り、LLaDA1.5-8Bで20.4%、LLaDA-8B-Instructで16.0%の相対的改善を達成した。特にLlama3.1-8B-Instructなど同規模の自己回帰モデルを顕著に凌駕する結果を示した。
English
Despite the non-autoregressive potential of diffusion language models (dLLMs), existing decoding strategies demonstrate positional bias, failing to fully unlock the potential of arbitrary generation. In this work, we delve into the inherent spectral characteristics of dLLMs and present the first frequency-domain analysis showing that low-frequency components in hidden states primarily encode global structural information and long-range dependencies, while high-frequency components are responsible for characterizing local details. Based on this observation, we propose FourierSampler, which leverages a frequency-domain sliding window mechanism to dynamically guide the model to achieve a "structure-to-detail" generation. FourierSampler outperforms other inference enhancement strategies on LLADA and SDAR, achieving relative improvements of 20.4% on LLaDA1.5-8B and 16.0% on LLaDA-8B-Instruct. It notably surpasses similarly sized autoregressive models like Llama3.1-8B-Instruct.