FourierSampler: 주파수 기반 생성을 통해 확산 언어 모델의 비자기회귀적 잠재력 개방
FourierSampler: Unlocking Non-Autoregressive Potential in Diffusion Language Models via Frequency-Guided Generation
January 30, 2026
저자: Siyang He, Qiqi Wang, Xiaoran Liu, Hongnan Ma, Yiwei Shi, Yuerong Song, Ying Zhu, Tianyi Liang, Zengfeng Huang, Ziwei He, Xipeng Qiu
cs.AI
초록
확산 언어 모델(dLLM)이 비자회귀적 잠재력을 지님에도 불구하고, 기존 디코딩 전략은 위치 편향을 보여 임의 생성의 잠재력을 완전히 활용하지 못하고 있다. 본 연구에서는 dLLM의 내재된 스펙트럼 특성을 심층 분석하고, 은닉 상태의 저주파 성분이 주로 전역적 구조 정보와 장거리 의존성을 인코딩하는 반면 고주파 성분은 지역적 세부 사항 특성화를 담당한다는 최초의 주파수 영역 분석 결과를 제시한다. 이러한 관찰을 바탕으로, 주파수 영역 슬라이딩 윈도우 메커니즘을 활용하여 모델이 "구조-세부사항" 생성 패러다임을 동적으로 달성하도록 유도하는 FourierSampler를 제안한다. FourierSampler는 LLADA와 SDAR 벤치마크에서 다른 추론 향상 전략들을 능가하며, LLaDA1.5-8B에서 20.4%, LLaDA-8B-Instruct에서 16.0%의 상대적 성능 향상을 달성했다. 이는 Llama3.1-8B-Instruct와 같은 동일 규모 자회귀 모델을 뚜렷이 앞섰다.
English
Despite the non-autoregressive potential of diffusion language models (dLLMs), existing decoding strategies demonstrate positional bias, failing to fully unlock the potential of arbitrary generation. In this work, we delve into the inherent spectral characteristics of dLLMs and present the first frequency-domain analysis showing that low-frequency components in hidden states primarily encode global structural information and long-range dependencies, while high-frequency components are responsible for characterizing local details. Based on this observation, we propose FourierSampler, which leverages a frequency-domain sliding window mechanism to dynamically guide the model to achieve a "structure-to-detail" generation. FourierSampler outperforms other inference enhancement strategies on LLADA and SDAR, achieving relative improvements of 20.4% on LLaDA1.5-8B and 16.0% on LLaDA-8B-Instruct. It notably surpasses similarly sized autoregressive models like Llama3.1-8B-Instruct.