ChatPaper.aiChatPaper

LongLLaDA : Débloquer les capacités de contexte étendu dans les LLMs de diffusion

LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs

June 17, 2025
Auteurs: Xiaoran Liu, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Ziwei He, Xipeng Qiu
cs.AI

Résumé

Les modèles de diffusion de langage à grande échelle, ou diffusion LLMs, sont devenus un axe de recherche majeur en traitement automatique du langage naturel (TALN), avec des efforts substantiels consacrés à la compréhension de leur évolutivité et de leurs performances sur des tâches en aval. Cependant, leurs capacités en contexte long restent inexplorées, manquant d'analyses systématiques ou de méthodes pour l'extension de contexte. Dans ce travail, nous présentons la première investigation systématique comparant les performances en contexte long des diffusion LLMs et des LLMs auto-régressifs traditionnels. Nous identifions d'abord une caractéristique unique des diffusion LLMs : contrairement aux LLMs auto-régressifs, ils maintiennent une perplexité remarquablement stable lors de l'extrapolation directe du contexte. De plus, là où les modèles auto-régressifs échouent complètement dans la tâche de l'aiguille dans une botte de foin avec un contexte dépassant leur longueur prétrainée, nous découvrons que les diffusion LLMs présentent un phénomène distinct de perception locale, permettant une récupération réussie à partir de segments de contexte récents. Nous expliquons ces deux phénomènes à travers la théorie de mise à l'échelle des embeddings de position rotatifs (RoPE). Sur la base de ces observations, nous proposons LongLLaDA, une méthode sans entraînement qui intègre LLaDA avec l'extrapolation RoPE basée sur NTK. Nos résultats valident que les lois d'échelle d'extrapolation établies restent efficaces pour étendre les fenêtres de contexte des diffusion LLMs. En outre, nous identifions des tâches en contexte long où les diffusion LLMs surpassent les LLMs auto-régressifs et d'autres où ils sont moins performants. Par conséquent, cette étude établit la première méthode d'extrapolation de contexte pour les diffusion LLMs tout en fournissant des insights théoriques essentiels et des benchmarks empiriques critiques pour faire avancer les recherches futures sur les diffusion LLMs en contexte long.
English
Large Language Diffusion Models, or diffusion LLMs, have emerged as a significant focus in NLP research, with substantial effort directed toward understanding their scalability and downstream task performance. However, their long-context capabilities remain unexplored, lacking systematic analysis or methods for context extension. In this work, we present the first systematic investigation comparing the long-context performance of diffusion LLMs and traditional auto-regressive LLMs. We first identify a unique characteristic of diffusion LLMs, unlike auto-regressive LLMs, they maintain remarkably \textit{stable perplexity} during direct context extrapolation. Furthermore, where auto-regressive models fail outright during the Needle-In-A-Haystack task with context exceeding their pretrained length, we discover diffusion LLMs exhibit a distinct \textit{local perception} phenomenon, enabling successful retrieval from recent context segments. We explain both phenomena through the lens of Rotary Position Embedding (RoPE) scaling theory. Building on these observations, we propose LongLLaDA, a training-free method that integrates LLaDA with the NTK-based RoPE extrapolation. Our results validate that established extrapolation scaling laws remain effective for extending the context windows of diffusion LLMs. Furthermore, we identify long-context tasks where diffusion LLMs outperform auto-regressive LLMs and others where they fall short. Consequently, this study establishes the first context extrapolation method for diffusion LLMs while providing essential theoretical insights and empirical benchmarks critical for advancing future research on long-context diffusion LLMs.
PDF392June 18, 2025