ChatPaper.aiChatPaper

LongLLaDA: Раскрытие возможностей работы с длинным контекстом в диффузионных LLM

LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs

June 17, 2025
Авторы: Xiaoran Liu, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Ziwei He, Xipeng Qiu
cs.AI

Аннотация

Модели языковой диффузии (Large Language Diffusion Models, или diffusion LLMs) стали важным направлением исследований в области обработки естественного языка (NLP), при этом значительные усилия направлены на изучение их масштабируемости и производительности на последующих задачах. Однако их способности к работе с длинным контекстом остаются неисследованными, отсутствуют систематический анализ или методы расширения контекста. В данной работе мы представляем первое систематическое исследование, сравнивающее производительность diffusion LLMs и традиционных авторегрессивных LLMs в задачах с длинным контекстом. Мы впервые выявляем уникальную особенность diffusion LLMs: в отличие от авторегрессивных LLMs, они демонстрируют удивительно \textit{стабильную перплексию} при прямом экстраполировании контекста. Более того, в то время как авторегрессивные модели полностью терпят неудачу в задаче "Иголка в стоге сена" при превышении длины предобученного контекста, мы обнаруживаем, что diffusion LLMs проявляют явление \textit{локального восприятия}, позволяющее успешно извлекать информацию из недавних сегментов контекста. Мы объясняем оба явления через теорию масштабирования Rotary Position Embedding (RoPE). На основе этих наблюдений мы предлагаем LongLLaDA — метод, не требующий дополнительного обучения, который интегрирует LLaDA с экстраполяцией RoPE на основе NTK. Наши результаты подтверждают, что установленные законы масштабирования экстраполяции остаются эффективными для расширения контекстных окон diffusion LLMs. Кроме того, мы выявляем задачи с длинным контекстом, в которых diffusion LLMs превосходят авторегрессивные LLMs, и задачи, в которых они уступают. Таким образом, данное исследование устанавливает первый метод экстраполяции контекста для diffusion LLMs, предоставляя важные теоретические инсайты и эмпирические бенчмарки, необходимые для продвижения будущих исследований в области diffusion LLMs с длинным контекстом.
English
Large Language Diffusion Models, or diffusion LLMs, have emerged as a significant focus in NLP research, with substantial effort directed toward understanding their scalability and downstream task performance. However, their long-context capabilities remain unexplored, lacking systematic analysis or methods for context extension. In this work, we present the first systematic investigation comparing the long-context performance of diffusion LLMs and traditional auto-regressive LLMs. We first identify a unique characteristic of diffusion LLMs, unlike auto-regressive LLMs, they maintain remarkably \textit{stable perplexity} during direct context extrapolation. Furthermore, where auto-regressive models fail outright during the Needle-In-A-Haystack task with context exceeding their pretrained length, we discover diffusion LLMs exhibit a distinct \textit{local perception} phenomenon, enabling successful retrieval from recent context segments. We explain both phenomena through the lens of Rotary Position Embedding (RoPE) scaling theory. Building on these observations, we propose LongLLaDA, a training-free method that integrates LLaDA with the NTK-based RoPE extrapolation. Our results validate that established extrapolation scaling laws remain effective for extending the context windows of diffusion LLMs. Furthermore, we identify long-context tasks where diffusion LLMs outperform auto-regressive LLMs and others where they fall short. Consequently, this study establishes the first context extrapolation method for diffusion LLMs while providing essential theoretical insights and empirical benchmarks critical for advancing future research on long-context diffusion LLMs.
PDF392June 18, 2025