Focus-dLLM: 信頼度誘導型コンテキスト焦点化による長文脈拡散LLM推論の高速化
Focus-dLLM: Accelerating Long-Context Diffusion LLM Inference via Confidence-Guided Context Focusing
February 2, 2026
著者: Lingkun Long, Yushi Huang, Shihao Bai, Ruihao Gong, Jun Zhang, Ao Zhou, Jianlei Yang
cs.AI
要旨
拡散大規模言語モデル(dLLM)は、非自己回帰的なデコード手法において優れた長文処理能力を発揮する。しかし、双方向の完全注意機構には多大な計算コストが伴い、推論効率を制限している。疎な注意機構は有望だが、既存の手法は依然として効果的ではない。これは、未デコードのトークンに対する注意の重要度を推定する必要がある一方で、拡散過程においてマスクされていないトークンの位置が未知であることに起因する。本論文では、正確かつ効率的な長文dLLM推論のための、学習不要の新しい注意疎化フレームワーク「Focus-dLLM」を提案する。隣接するステップ間でトークンの信頼度に強い相関があるという発見に基づき、まずマスクされていない領域を予測する過去の信頼度誘導指標を設計する。これを基盤として、影響力の大きい注意のシンクを保持しつつ、冗長な注意計算を正確に推定・削除するシンク対応枝刈り戦略を提案する。さらにオーバーヘッドを削減するため、観測された層間一貫性を活用し、特定されたシンク位置を層間で再利用する。実験結果から、本手法が32Kの文脈長条件下で29倍以上のロスレスな高速化を実現することが示された。コードはhttps://github.com/Longxmas/Focus-dLLM で公開されている。
English
Diffusion Large Language Models (dLLMs) deliver strong long-context processing capability in a non-autoregressive decoding paradigm. However, the considerable computational cost of bidirectional full attention limits the inference efficiency. Although sparse attention is promising, existing methods remain ineffective. This stems from the need to estimate attention importance for tokens yet to be decoded, while the unmasked token positions are unknown during diffusion. In this paper, we present Focus-dLLM, a novel training-free attention sparsification framework tailored for accurate and efficient long-context dLLM inference. Based on the finding that token confidence strongly correlates across adjacent steps, we first design a past confidence-guided indicator to predict unmasked regions. Built upon this, we propose a sink-aware pruning strategy to accurately estimate and remove redundant attention computation, while preserving highly influential attention sinks. To further reduce overhead, this strategy reuses identified sink locations across layers, leveraging the observed cross-layer consistency. Experimental results show that our method offers more than 29times lossless speedup under 32K context length. The code is publicly available at: https://github.com/Longxmas/Focus-dLLM