FourierSampler: Het Ontsluiten van Niet-Autoregressief Potentieel in Diffusie Taalmodellen via Frequentie-Gestuurde Generatie

Samenvatting

Ondanks het niet-autoregressieve potentieel van diffusie-taalmmodellen (dLLM's) vertonen bestaande decodeerstrategieën positionele bias, waardoor het potentieel voor willekeurige generatie niet volledig wordt benut. In dit werk onderzoeken we de inherente spectrale kenmerken van dLLM's en presenteren we de eerste frequentiedomeinanalyse waaruit blijkt dat laagfrequente componenten in verborgen toestanden voornamelijk globale structurele informatie en lange-afstandsafhankelijkheden coderen, terwijl hoogfrequente componenten verantwoordelijk zijn voor het karakteriseren van lokale details. Gebaseerd op deze observatie stellen we FourierSampler voor, dat gebruikmaakt van een frequentiedomein-glijdend-venster-mechanisme om het model dynamisch te begeleiden naar een "structuur-naar-detail"-generatie. FourierSampler overtreft andere inferentieverbeteringsstrategieën op LLADA en SDAR, met relatieve verbeteringen van 20,4% op LLaDA1.5-8B en 16,0% op LLaDA-8B-Instruct. Het overtreft daarbij opmerkelijk genoeg vergelijkbaar grote autoregressieve modellen zoals Llama3.1-8B-Instruct.

English

Despite the non-autoregressive potential of diffusion language models (dLLMs), existing decoding strategies demonstrate positional bias, failing to fully unlock the potential of arbitrary generation. In this work, we delve into the inherent spectral characteristics of dLLMs and present the first frequency-domain analysis showing that low-frequency components in hidden states primarily encode global structural information and long-range dependencies, while high-frequency components are responsible for characterizing local details. Based on this observation, we propose FourierSampler, which leverages a frequency-domain sliding window mechanism to dynamically guide the model to achieve a "structure-to-detail" generation. FourierSampler outperforms other inference enhancement strategies on LLADA and SDAR, achieving relative improvements of 20.4% on LLaDA1.5-8B and 16.0% on LLaDA-8B-Instruct. It notably surpasses similarly sized autoregressive models like Llama3.1-8B-Instruct.

FourierSampler: Het Ontsluiten van Niet-Autoregressief Potentieel in Diffusie Taalmodellen via Frequentie-Gestuurde Generatie

FourierSampler: Unlocking Non-Autoregressive Potential in Diffusion Language Models via Frequency-Guided Generation

Samenvatting

Support