LongLLaDA: Sbloccare le Capacità di Contesto Esteso nei Modelli Linguistici di Diffusione
LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs
June 17, 2025
Autori: Xiaoran Liu, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Ziwei He, Xipeng Qiu
cs.AI
Abstract
I Modelli di Diffusione per Linguaggio su Grande Scala, o diffusion LLM, sono emersi come un focus significativo nella ricerca NLP, con uno sforzo sostanziale diretto a comprenderne la scalabilità e le prestazioni nei task downstream. Tuttavia, le loro capacità di gestione di contesti lunghi rimangono inesplorate, mancando di analisi sistematiche o metodi per l'estensione del contesto. In questo lavoro, presentiamo la prima indagine sistematica che confronta le prestazioni su contesti lunghi dei diffusion LLM e dei tradizionali LLM auto-regressivi. Identifichiamo innanzitutto una caratteristica unica dei diffusion LLM: a differenza degli LLM auto-regressivi, mantengono una \textit{perplessità stabile} durante l'estrapolazione diretta del contesto. Inoltre, mentre i modelli auto-regressivi falliscono completamente nel task Needle-In-A-Haystack con contesti che superano la loro lunghezza pre-addestrata, scopriamo che i diffusion LLM mostrano un fenomeno distinto di \textit{percezione locale}, che consente il recupero con successo da segmenti di contesto recenti. Spieghiamo entrambi i fenomeni attraverso la teoria del ridimensionamento degli embedding di posizione rotazionali (RoPE). Basandoci su queste osservazioni, proponiamo LongLLaDA, un metodo senza addestramento che integra LLaDA con l'estrapolazione RoPE basata su NTK. I nostri risultati validano che le leggi di ridimensionamento per l'estrapolazione rimangono efficaci per estendere le finestre di contesto dei diffusion LLM. Inoltre, identifichiamo task su contesti lunghi in cui i diffusion LLM superano gli LLM auto-regressivi e altri in cui sono inferiori. Di conseguenza, questo studio stabilisce il primo metodo di estrapolazione del contesto per i diffusion LLM, fornendo al contempo intuizioni teoriche essenziali e benchmark empirici critici per avanzare la ricerca futura sui diffusion LLM su contesti lunghi.
English
Large Language Diffusion Models, or diffusion LLMs, have emerged as a
significant focus in NLP research, with substantial effort directed toward
understanding their scalability and downstream task performance. However, their
long-context capabilities remain unexplored, lacking systematic analysis or
methods for context extension. In this work, we present the first systematic
investigation comparing the long-context performance of diffusion LLMs and
traditional auto-regressive LLMs. We first identify a unique characteristic of
diffusion LLMs, unlike auto-regressive LLMs, they maintain remarkably
\textit{stable perplexity} during direct context extrapolation.
Furthermore, where auto-regressive models fail outright during the
Needle-In-A-Haystack task with context exceeding their pretrained length, we
discover diffusion LLMs exhibit a distinct \textit{local perception}
phenomenon, enabling successful retrieval from recent context segments. We
explain both phenomena through the lens of Rotary Position Embedding (RoPE)
scaling theory. Building on these observations, we propose LongLLaDA, a
training-free method that integrates LLaDA with the NTK-based RoPE
extrapolation. Our results validate that established extrapolation scaling laws
remain effective for extending the context windows of diffusion LLMs.
Furthermore, we identify long-context tasks where diffusion LLMs outperform
auto-regressive LLMs and others where they fall short. Consequently, this study
establishes the first context extrapolation method for diffusion LLMs while
providing essential theoretical insights and empirical benchmarks critical for
advancing future research on long-context diffusion LLMs.