Focus-dLLM: 신뢰도 기반 문맥 포커싱을 통한 장문맥 Diffusion LLM 추론 가속화
Focus-dLLM: Accelerating Long-Context Diffusion LLM Inference via Confidence-Guided Context Focusing
February 2, 2026
저자: Lingkun Long, Yushi Huang, Shihao Bai, Ruihao Gong, Jun Zhang, Ao Zhou, Jianlei Yang
cs.AI
초록
확산 대형 언어 모델(dLLM)은 비자회귀 디코딩 패러다임에서 강력한 장문 컨텍스트 처리 능력을 보여줍니다. 그러나 양방향 전체 어텐션의 상당한 계산 비용으로 인해 추론 효율성이 제한됩니다. 희소 어텐션이 유망한 기술이지만, 기존 방법들은 여전히 효과적이지 못합니다. 이는 아직 디코딩되지 않은 토큰에 대한 어텐션 중요도를 추정해야 하는 반면, 확산 과정에서는 마스크가 제거된 토큰 위치를 알 수 없기 때문입니다. 본 논문에서는 정확하고 효율적인 장문 컨텍스트 dLLM 추론을 위해 특화된 새로운 학습 불필요 어텐션 희소화 프레임워크인 Focus-dLLM을 제안합니다. 토큰 신뢰도가 인접한 단계 간에 강하게 상관관계를 가진다는 발견에 기반하여, 먼저 마스크가 제거된 영역을 예측하기 위한 과거 신뢰도 기반 지표를 설계합니다. 이를 바탕으로 영향력이 큰 어텐션 싱크는 보존하면서 중복 어텐션 계산을 정확히 추정하고 제거하기 위한 싱크 인지 프루닝 전략을 제안합니다. 오버헤드를 더욱 줄이기 위해, 관찰된 계층 간 일관성을 활용하여 이 전략은 식별된 싱크 위치를 여러 계층에 걸쳐 재사용합니다. 실험 결과, 본 방법론이 32K 컨텍스트 길이에서 29배 이상의 무손실 속도 향상을 제공함을 보여줍니다. 코드는 https://github.com/Longxmas/Focus-dLLM에서 공개되어 있습니다.
English
Diffusion Large Language Models (dLLMs) deliver strong long-context processing capability in a non-autoregressive decoding paradigm. However, the considerable computational cost of bidirectional full attention limits the inference efficiency. Although sparse attention is promising, existing methods remain ineffective. This stems from the need to estimate attention importance for tokens yet to be decoded, while the unmasked token positions are unknown during diffusion. In this paper, we present Focus-dLLM, a novel training-free attention sparsification framework tailored for accurate and efficient long-context dLLM inference. Based on the finding that token confidence strongly correlates across adjacent steps, we first design a past confidence-guided indicator to predict unmasked regions. Built upon this, we propose a sink-aware pruning strategy to accurately estimate and remove redundant attention computation, while preserving highly influential attention sinks. To further reduce overhead, this strategy reuses identified sink locations across layers, leveraging the observed cross-layer consistency. Experimental results show that our method offers more than 29times lossless speedup under 32K context length. The code is publicly available at: https://github.com/Longxmas/Focus-dLLM