LongLLaDA: Het ontsluiten van lange-contextmogelijkheden in diffusie-LLM's
LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs
June 17, 2025
Auteurs: Xiaoran Liu, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Ziwei He, Xipeng Qiu
cs.AI
Samenvatting
Large Language Diffusion Models, ofwel diffusie-LLM's, zijn naar voren gekomen als een belangrijk aandachtspunt in NLP-onderzoek, waarbij aanzienlijke inspanningen zijn gericht op het begrijpen van hun schaalbaarheid en prestaties bij downstream taken. Hun mogelijkheden voor lange contexten blijven echter onontgonnen, met een gebrek aan systematische analyse of methoden voor contextuitbreiding. In dit werk presenteren we het eerste systematische onderzoek dat de prestaties van diffusie-LLM's en traditionele auto-regressieve LLM's op lange contexten vergelijkt. We identificeren eerst een uniek kenmerk van diffusie-LLM's: in tegenstelling tot auto-regressieve LLM's behouden ze opmerkelijk \textit{stabiele perplexiteit} tijdens directe contextextrapolatie. Bovendien, waar auto-regressieve modellen volledig falen tijdens de Needle-In-A-Haystack-taak met contexten die hun voorgetrainde lengte overschrijden, ontdekken we dat diffusie-LLM's een duidelijk \textit{lokaal perceptie}-fenomeen vertonen, waardoor succesvolle retrievals uit recente contextsegmenten mogelijk zijn. We verklaren beide fenomenen vanuit het perspectief van de Rotary Position Embedding (RoPE)-schaaltheorie. Op basis van deze observaties stellen we LongLLaDA voor, een trainingsvrije methode die LLaDA integreert met de NTK-gebaseerde RoPE-extrapolatie. Onze resultaten valideren dat gevestigde extrapolatieschaalwetten effectief blijven voor het uitbreiden van de contextvensters van diffusie-LLM's. Verder identificeren we taken met lange contexten waarin diffusie-LLM's beter presteren dan auto-regressieve LLM's en andere waarin ze tekortschieten. Daarmee stelt deze studie de eerste contextextrapolatiemethode voor diffusie-LLM's vast, terwijl het essentiële theoretische inzichten en empirische benchmarks biedt die cruciaal zijn voor het bevorderen van toekomstig onderzoek naar diffusie-LLM's met lange contexten.
English
Large Language Diffusion Models, or diffusion LLMs, have emerged as a
significant focus in NLP research, with substantial effort directed toward
understanding their scalability and downstream task performance. However, their
long-context capabilities remain unexplored, lacking systematic analysis or
methods for context extension. In this work, we present the first systematic
investigation comparing the long-context performance of diffusion LLMs and
traditional auto-regressive LLMs. We first identify a unique characteristic of
diffusion LLMs, unlike auto-regressive LLMs, they maintain remarkably
\textit{stable perplexity} during direct context extrapolation.
Furthermore, where auto-regressive models fail outright during the
Needle-In-A-Haystack task with context exceeding their pretrained length, we
discover diffusion LLMs exhibit a distinct \textit{local perception}
phenomenon, enabling successful retrieval from recent context segments. We
explain both phenomena through the lens of Rotary Position Embedding (RoPE)
scaling theory. Building on these observations, we propose LongLLaDA, a
training-free method that integrates LLaDA with the NTK-based RoPE
extrapolation. Our results validate that established extrapolation scaling laws
remain effective for extending the context windows of diffusion LLMs.
Furthermore, we identify long-context tasks where diffusion LLMs outperform
auto-regressive LLMs and others where they fall short. Consequently, this study
establishes the first context extrapolation method for diffusion LLMs while
providing essential theoretical insights and empirical benchmarks critical for
advancing future research on long-context diffusion LLMs.