FourierSampler: Erschließung des nicht-autoregressiven Potenzials von Diffusions-Sprachmodellen durch frequenzgesteuerte Generierung
FourierSampler: Unlocking Non-Autoregressive Potential in Diffusion Language Models via Frequency-Guided Generation
January 30, 2026
papers.authors: Siyang He, Qiqi Wang, Xiaoran Liu, Hongnan Ma, Yiwei Shi, Yuerong Song, Ying Zhu, Tianyi Liang, Zengfeng Huang, Ziwei He, Xipeng Qiu
cs.AI
papers.abstract
Trotz des nicht-autoregressiven Potenzials von Diffusions-Sprachmodellen (dLLMs) weisen bestehende Dekodierungsstrategien eine positionsbedingte Verzerrung auf und erschließen das Potenzial arbiträrer Generierung nicht vollständig. In dieser Arbeit untersuchen wir die inhärenten spektralen Eigenschaften von dLLMs und präsentieren die erste Frequenzbereichsanalyse, die zeigt, dass niederfrequente Komponenten in verborgenen Zuständen primär globale Strukturinformationen und Langreichweiten-Abhängigkeiten kodieren, während hochfrequente Komponenten für die Charakterisierung lokaler Details verantwortlich sind. Aufbauend auf dieser Beobachtung schlagen wir FourierSampler vor, das einen Frequenzbereichs-Gleitfenstermechanismus nutzt, um das Modell dynamisch zu einer "Struktur-zu-Detail"-Generierung zu führen. FourierSampler übertrifft andere Inferenzverbesserungsstrategien auf LLADA und SDAR und erzielt relative Verbesserungen von 20,4 % bei LLaDA1.5-8B und 16,0 % bei LLaDA-8B-Instruct. Es übertrifft insbesondere ähnlich große autoregressive Modelle wie Llama3.1-8B-Instruct deutlich.
English
Despite the non-autoregressive potential of diffusion language models (dLLMs), existing decoding strategies demonstrate positional bias, failing to fully unlock the potential of arbitrary generation. In this work, we delve into the inherent spectral characteristics of dLLMs and present the first frequency-domain analysis showing that low-frequency components in hidden states primarily encode global structural information and long-range dependencies, while high-frequency components are responsible for characterizing local details. Based on this observation, we propose FourierSampler, which leverages a frequency-domain sliding window mechanism to dynamically guide the model to achieve a "structure-to-detail" generation. FourierSampler outperforms other inference enhancement strategies on LLADA and SDAR, achieving relative improvements of 20.4% on LLaDA1.5-8B and 16.0% on LLaDA-8B-Instruct. It notably surpasses similarly sized autoregressive models like Llama3.1-8B-Instruct.