ChatPaper.aiChatPaper

LongLLaDA: Desbloqueando Capacidades de Contexto Largo en Modelos de Lenguaje de Difusión

LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs

June 17, 2025
Autores: Xiaoran Liu, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Ziwei He, Xipeng Qiu
cs.AI

Resumen

Los Modelos de Difusión de Lenguaje de Gran Escala, o diffusion LLMs, han surgido como un enfoque significativo en la investigación de PLN, con un esfuerzo considerable dirigido a comprender su escalabilidad y rendimiento en tareas posteriores. Sin embargo, sus capacidades de contexto largo permanecen inexploradas, careciendo de análisis sistemático o métodos para la extensión del contexto. En este trabajo, presentamos la primera investigación sistemática que compara el rendimiento de contexto largo de los diffusion LLMs y los LLMs auto-regresivos tradicionales. Primero identificamos una característica única de los diffusion LLMs: a diferencia de los LLMs auto-regresivos, mantienen una \textit{perplejidad notablemente estable} durante la extrapolación directa del contexto. Además, mientras que los modelos auto-regresivos fallan por completo en la tarea de Needle-In-A-Haystack con contextos que exceden su longitud preentrenada, descubrimos que los diffusion LLMs exhiben un fenómeno distinto de \textit{percepción local}, permitiendo la recuperación exitosa de segmentos de contexto recientes. Explicamos ambos fenómenos a través de la teoría de escalado de Rotary Position Embedding (RoPE). Basándonos en estas observaciones, proponemos LongLLaDA, un método sin entrenamiento que integra LLaDA con la extrapolación RoPE basada en NTK. Nuestros resultados validan que las leyes de escalado de extrapolación establecidas siguen siendo efectivas para extender las ventanas de contexto de los diffusion LLMs. Además, identificamos tareas de contexto largo en las que los diffusion LLMs superan a los LLMs auto-regresivos y otras en las que se quedan cortos. En consecuencia, este estudio establece el primer método de extrapolación de contexto para diffusion LLMs, proporcionando insights teóricos esenciales y benchmarks empíricos críticos para avanzar en la investigación futura sobre diffusion LLMs de contexto largo.
English
Large Language Diffusion Models, or diffusion LLMs, have emerged as a significant focus in NLP research, with substantial effort directed toward understanding their scalability and downstream task performance. However, their long-context capabilities remain unexplored, lacking systematic analysis or methods for context extension. In this work, we present the first systematic investigation comparing the long-context performance of diffusion LLMs and traditional auto-regressive LLMs. We first identify a unique characteristic of diffusion LLMs, unlike auto-regressive LLMs, they maintain remarkably \textit{stable perplexity} during direct context extrapolation. Furthermore, where auto-regressive models fail outright during the Needle-In-A-Haystack task with context exceeding their pretrained length, we discover diffusion LLMs exhibit a distinct \textit{local perception} phenomenon, enabling successful retrieval from recent context segments. We explain both phenomena through the lens of Rotary Position Embedding (RoPE) scaling theory. Building on these observations, we propose LongLLaDA, a training-free method that integrates LLaDA with the NTK-based RoPE extrapolation. Our results validate that established extrapolation scaling laws remain effective for extending the context windows of diffusion LLMs. Furthermore, we identify long-context tasks where diffusion LLMs outperform auto-regressive LLMs and others where they fall short. Consequently, this study establishes the first context extrapolation method for diffusion LLMs while providing essential theoretical insights and empirical benchmarks critical for advancing future research on long-context diffusion LLMs.
PDF392June 18, 2025