FourierSampler: Sbloccare il Potenziale Non Autoregressivo nei Modelli Linguistici di Diffusione tramite Generazione Guidata dalla Frequenza

Abstract

Nonostante il potenziale non autoregressivo dei modelli linguistici diffusivi (dLLM), le strategie di decodifica esistenti mostrano un bias posizionale, non riuscendo a sfruttare appieno il potenziale di generazione arbitraria. In questo lavoro, approfondiamo le caratteristiche spettrali intrinseche dei dLLM e presentiamo la prima analisi nel dominio della frequenza, dimostrando che le componenti a bassa frequenza negli stati nascosti codificano principalmente informazioni strutturali globali e dipendenze a lungo raggio, mentre le componenti ad alta frequenza sono responsabili della caratterizzazione dei dettagli locali. Sulla base di questa osservazione, proponiamo FourierSampler, che sfrutta un meccanismo a finestra scorrevole nel dominio della frequenza per guidare dinamicamente il modello verso una generazione "dalla struttura al dettaglio". FourierSampler supera altre strategie di miglioramento dell'inferenza su LLADA e SDAR, ottenendo miglioramenti relativi del 20,4% su LLaDA1.5-8B e del 16,0% su LLaDA-8B-Instruct. Notevolmente, supera modelli autoregressivi di dimensioni simili come Llama3.1-8B-Instruct.

English

Despite the non-autoregressive potential of diffusion language models (dLLMs), existing decoding strategies demonstrate positional bias, failing to fully unlock the potential of arbitrary generation. In this work, we delve into the inherent spectral characteristics of dLLMs and present the first frequency-domain analysis showing that low-frequency components in hidden states primarily encode global structural information and long-range dependencies, while high-frequency components are responsible for characterizing local details. Based on this observation, we propose FourierSampler, which leverages a frequency-domain sliding window mechanism to dynamically guide the model to achieve a "structure-to-detail" generation. FourierSampler outperforms other inference enhancement strategies on LLADA and SDAR, achieving relative improvements of 20.4% on LLaDA1.5-8B and 16.0% on LLaDA-8B-Instruct. It notably surpasses similarly sized autoregressive models like Llama3.1-8B-Instruct.

FourierSampler: Sbloccare il Potenziale Non Autoregressivo nei Modelli Linguistici di Diffusione tramite Generazione Guidata dalla Frequenza

FourierSampler: Unlocking Non-Autoregressive Potential in Diffusion Language Models via Frequency-Guided Generation

Abstract

Support