LongLLaDA: Desbloqueando Capacidades de Contexto Longo em LLMs de Difusão
LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs
June 17, 2025
Autores: Xiaoran Liu, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Ziwei He, Xipeng Qiu
cs.AI
Resumo
Modelos de Difusão de Linguagem de Grande Escala, ou LLMs de difusão, emergiram como um foco significativo na pesquisa em PLN, com esforços substanciais direcionados para compreender sua escalabilidade e desempenho em tarefas subsequentes. No entanto, suas capacidades de contexto longo permanecem inexploradas, carecendo de análise sistemática ou métodos para extensão de contexto. Neste trabalho, apresentamos a primeira investigação sistemática comparando o desempenho de contexto longo entre LLMs de difusão e LLMs auto-regressivos tradicionais. Primeiro, identificamos uma característica única dos LLMs de difusão: ao contrário dos LLMs auto-regressivos, eles mantêm uma \textit{perplexidade notavelmente estável} durante a extrapolação direta de contexto. Além disso, enquanto modelos auto-regressivos falham completamente na tarefa Needle-In-A-Haystack com contextos que excedem seu comprimento pré-treinado, descobrimos que os LLMs de difusão exibem um fenômeno distinto de \textit{percepção local}, permitindo a recuperação bem-sucedida de segmentos recentes do contexto. Explicamos ambos os fenômenos através da teoria de escalonamento de Embeddings de Posição Rotativa (RoPE). Com base nessas observações, propomos o LongLLaDA, um método sem treinamento que integra o LLaDA com a extrapolação RoPE baseada em NTK. Nossos resultados validam que as leis de escalonamento de extrapolação estabelecidas permanecem eficazes para estender as janelas de contexto dos LLMs de difusão. Além disso, identificamos tarefas de contexto longo onde os LLMs de difusão superam os LLMs auto-regressivos e outras onde eles ficam aquém. Consequentemente, este estudo estabelece o primeiro método de extrapolação de contexto para LLMs de difusão, ao mesmo tempo em que fornece insights teóricos essenciais e benchmarks empíricos críticos para avançar pesquisas futuras sobre LLMs de difusão de contexto longo.
English
Large Language Diffusion Models, or diffusion LLMs, have emerged as a
significant focus in NLP research, with substantial effort directed toward
understanding their scalability and downstream task performance. However, their
long-context capabilities remain unexplored, lacking systematic analysis or
methods for context extension. In this work, we present the first systematic
investigation comparing the long-context performance of diffusion LLMs and
traditional auto-regressive LLMs. We first identify a unique characteristic of
diffusion LLMs, unlike auto-regressive LLMs, they maintain remarkably
\textit{stable perplexity} during direct context extrapolation.
Furthermore, where auto-regressive models fail outright during the
Needle-In-A-Haystack task with context exceeding their pretrained length, we
discover diffusion LLMs exhibit a distinct \textit{local perception}
phenomenon, enabling successful retrieval from recent context segments. We
explain both phenomena through the lens of Rotary Position Embedding (RoPE)
scaling theory. Building on these observations, we propose LongLLaDA, a
training-free method that integrates LLaDA with the NTK-based RoPE
extrapolation. Our results validate that established extrapolation scaling laws
remain effective for extending the context windows of diffusion LLMs.
Furthermore, we identify long-context tasks where diffusion LLMs outperform
auto-regressive LLMs and others where they fall short. Consequently, this study
establishes the first context extrapolation method for diffusion LLMs while
providing essential theoretical insights and empirical benchmarks critical for
advancing future research on long-context diffusion LLMs.