FourierSampler: Desbloqueando el Potencial No Autoregresivo en Modelos de Lenguaje de Difusión mediante Generación Guiada por Frecuencia
FourierSampler: Unlocking Non-Autoregressive Potential in Diffusion Language Models via Frequency-Guided Generation
January 30, 2026
Autores: Siyang He, Qiqi Wang, Xiaoran Liu, Hongnan Ma, Yiwei Shi, Yuerong Song, Ying Zhu, Tianyi Liang, Zengfeng Huang, Ziwei He, Xipeng Qiu
cs.AI
Resumen
A pesar del potencial no autoregresivo de los modelos de lenguaje de difusión (dLLMs), las estrategias de decodificación existentes presentan un sesgo posicional, sin lograr desbloquear completamente el potencial de generación arbitraria. En este trabajo, profundizamos en las características espectrales inherentes de los dLLMs y presentamos el primer análisis en el dominio de la frecuencia que demuestra que los componentes de baja frecuencia en los estados ocultos codifican principalmente información estructural global y dependencias de largo alcance, mientras que los componentes de alta frecuencia se encargan de caracterizar los detalles locales. Basándonos en esta observación, proponemos FourierSampler, que aprovecha un mecanismo de ventana deslizante en el dominio de la frecuencia para guiar dinámicamente al modelo hacia una generación "de la estructura al detalle". FourierSampler supera a otras estrategias de mejora de la inferencia en LLADA y SDAR, logrando mejoras relativas del 20.4% en LLaDA1.5-8B y del 16.0% en LLaDA-8B-Instruct. Destaca notablemente por superar a modelos autoregresivos de tamaño similar como Llama3.1-8B-Instruct.
English
Despite the non-autoregressive potential of diffusion language models (dLLMs), existing decoding strategies demonstrate positional bias, failing to fully unlock the potential of arbitrary generation. In this work, we delve into the inherent spectral characteristics of dLLMs and present the first frequency-domain analysis showing that low-frequency components in hidden states primarily encode global structural information and long-range dependencies, while high-frequency components are responsible for characterizing local details. Based on this observation, we propose FourierSampler, which leverages a frequency-domain sliding window mechanism to dynamically guide the model to achieve a "structure-to-detail" generation. FourierSampler outperforms other inference enhancement strategies on LLADA and SDAR, achieving relative improvements of 20.4% on LLaDA1.5-8B and 16.0% on LLaDA-8B-Instruct. It notably surpasses similarly sized autoregressive models like Llama3.1-8B-Instruct.