ChatPaper.aiChatPaper

Focus-dLLM: Ускорение вывода диффузионных LLM с длинным контекстом через уверенность-ориентированное фокусирование контекста

Focus-dLLM: Accelerating Long-Context Diffusion LLM Inference via Confidence-Guided Context Focusing

February 2, 2026
Авторы: Lingkun Long, Yushi Huang, Shihao Bai, Ruihao Gong, Jun Zhang, Ao Zhou, Jianlei Yang
cs.AI

Аннотация

Диффузионные большие языковые модели (dLLM) демонстрируют высокую способность к обработке длинных контекстов в неавторегрессионном парадигме декодирования. Однако значительные вычислительные затраты двунаправленного полного внимания ограничивают эффективность вывода. Хотя разреженное внимание является перспективным, существующие методы остаются неэффективными. Это связано с необходимостью оценивать важность внимания для токенов, которые еще предстоит декодировать, в то время как позиции незамаскированных токенов неизвестны в процессе диффузии. В данной статье мы представляем Focus-dLLM — новую беспараметрическую структуру разрежения внимания, предназначенную для точного и эффективного вывода dLLM с длинным контекстом. Основываясь на обнаруженной сильной корреляции уверенности токенов на смежных шагах, мы сначала разрабатываем индикатор, управляемый прошлой уверенностью, для прогнозирования незамаскированных областей. На основе этого мы предлагаем стратегию прореживания с учетом стоков, чтобы точно оценить и устранить избыточные вычисления внимания, сохраняя при этом высоковлиятельные стоки внимания. Для дальнейшего снижения накладных расходов эта стратегия повторно использует идентифицированные местоположения стоков между слоями, используя наблюдаемую межслойную согласованность. Результаты экспериментов показывают, что наш метод обеспечивает более чем 29-кратное ускорение без потерь при длине контекста 32K. Код общедоступен по адресу: https://github.com/Longxmas/Focus-dLLM.
English
Diffusion Large Language Models (dLLMs) deliver strong long-context processing capability in a non-autoregressive decoding paradigm. However, the considerable computational cost of bidirectional full attention limits the inference efficiency. Although sparse attention is promising, existing methods remain ineffective. This stems from the need to estimate attention importance for tokens yet to be decoded, while the unmasked token positions are unknown during diffusion. In this paper, we present Focus-dLLM, a novel training-free attention sparsification framework tailored for accurate and efficient long-context dLLM inference. Based on the finding that token confidence strongly correlates across adjacent steps, we first design a past confidence-guided indicator to predict unmasked regions. Built upon this, we propose a sink-aware pruning strategy to accurately estimate and remove redundant attention computation, while preserving highly influential attention sinks. To further reduce overhead, this strategy reuses identified sink locations across layers, leveraging the observed cross-layer consistency. Experimental results show that our method offers more than 29times lossless speedup under 32K context length. The code is publicly available at: https://github.com/Longxmas/Focus-dLLM
PDF02February 7, 2026