ChatPaper.aiChatPaper

LongLLaDA: Erschließung der Fähigkeiten für lange Kontexte in Diffusions-LLMs

LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs

June 17, 2025
Autoren: Xiaoran Liu, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Ziwei He, Xipeng Qiu
cs.AI

Zusammenfassung

Große Sprachdiffusionsmodelle, oder Diffusions-LLMs, haben sich zu einem bedeutenden Schwerpunkt in der NLP-Forschung entwickelt, wobei erhebliche Anstrengungen darauf gerichtet sind, ihre Skalierbarkeit und Leistung bei nachgelagerten Aufgaben zu verstehen. Ihre Fähigkeiten im Umgang mit langen Kontexten bleiben jedoch unerforscht, da es an systematischen Analysen oder Methoden zur Kontextausdehnung mangelt. In dieser Arbeit präsentieren wir die erste systematische Untersuchung, die die Langkontextleistung von Diffusions-LLMs mit der traditioneller autoregressiver LLMs vergleicht. Wir identifizieren zunächst eine einzigartige Eigenschaft von Diffusions-LLMs: Im Gegensatz zu autoregressiven LLMs behalten sie während der direkten Kontextextrapolation eine bemerkenswert \textit{stabile Perplexität} bei. Darüber hinaus entdecken wir, dass Diffusions-LLMs bei der Needle-In-A-Haystack-Aufgabe, bei der der Kontext die vorab trainierte Länge überschreitet, ein ausgeprägtes \textit{lokales Wahrnehmungsphänomen} zeigen, das die erfolgreiche Extraktion aus kürzlichen Kontextsegmenten ermöglicht. Wir erklären beide Phänomene durch die Theorie der Rotary Position Embedding (RoPE)-Skalierung. Aufbauend auf diesen Beobachtungen schlagen wir LongLLaDA vor, eine trainingsfreie Methode, die LLaDA mit der NTK-basierten RoPE-Extrapolation kombiniert. Unsere Ergebnisse bestätigen, dass etablierte Extrapolationsskalierungsgesetze weiterhin effektiv sind, um die Kontextfenster von Diffusions-LLMs zu erweitern. Darüber hinaus identifizieren wir Langkontextaufgaben, bei denen Diffusions-LLMs autoregressive LLMs übertreffen, und andere, bei denen sie zurückbleiben. Folglich etabliert diese Studie die erste Kontextextrapolationsmethode für Diffusions-LLMs und liefert gleichzeitig wesentliche theoretische Einblicke und empirische Benchmarks, die für die Weiterentwicklung zukünftiger Forschungen zu Langkontext-Diffusions-LLMs entscheidend sind.
English
Large Language Diffusion Models, or diffusion LLMs, have emerged as a significant focus in NLP research, with substantial effort directed toward understanding their scalability and downstream task performance. However, their long-context capabilities remain unexplored, lacking systematic analysis or methods for context extension. In this work, we present the first systematic investigation comparing the long-context performance of diffusion LLMs and traditional auto-regressive LLMs. We first identify a unique characteristic of diffusion LLMs, unlike auto-regressive LLMs, they maintain remarkably \textit{stable perplexity} during direct context extrapolation. Furthermore, where auto-regressive models fail outright during the Needle-In-A-Haystack task with context exceeding their pretrained length, we discover diffusion LLMs exhibit a distinct \textit{local perception} phenomenon, enabling successful retrieval from recent context segments. We explain both phenomena through the lens of Rotary Position Embedding (RoPE) scaling theory. Building on these observations, we propose LongLLaDA, a training-free method that integrates LLaDA with the NTK-based RoPE extrapolation. Our results validate that established extrapolation scaling laws remain effective for extending the context windows of diffusion LLMs. Furthermore, we identify long-context tasks where diffusion LLMs outperform auto-regressive LLMs and others where they fall short. Consequently, this study establishes the first context extrapolation method for diffusion LLMs while providing essential theoretical insights and empirical benchmarks critical for advancing future research on long-context diffusion LLMs.
PDF392June 18, 2025