ChatPaper.aiChatPaper

Focus-dLLM: Aceleração da Inferência em LLMs de Difusão de Contexto Longo via Focalização de Contexto Guiada por Confiança

Focus-dLLM: Accelerating Long-Context Diffusion LLM Inference via Confidence-Guided Context Focusing

February 2, 2026
Autores: Lingkun Long, Yushi Huang, Shihao Bai, Ruihao Gong, Jun Zhang, Ao Zhou, Jianlei Yang
cs.AI

Resumo

Os Modelos de Linguagem de Grande Porte por Difusão (dLLMs) oferecem uma forte capacidade de processamento de contexto extenso em um paradigma de decodificação não autorregressivo. No entanto, o custo computacional considerável da atenção completa bidirecional limita a eficiência da inferência. Embora a atenção esparsa seja promissora, os métodos existentes permanecem ineficazes. Isso decorre da necessidade de estimar a importância da atenção para tokens ainda não decodificados, enquanto as posições dos tokens não mascarados são desconhecidas durante a difusão. Neste artigo, apresentamos o Focus-dLLM, uma nova estrutura de esparsificação de atenção sem treinamento, desenvolvida para inferência precisa e eficiente de dLLMs de contexto longo. Com base na descoberta de que a confiança dos tokens está fortemente correlacionada entre etapas adjacentes, primeiro projetamos um indicador guiado pela confiança passada para prever regiões não mascaradas. Com base nisso, propomos uma estratégia de poda consciente de sumidouros (sink-aware) para estimar e remover com precisão o cálculo de atenção redundante, preservando ao mesmo tempo sumidouros de atenção altamente influentes. Para reduzir ainda mais a sobrecarga, essa estratégia reutiliza as localizações de sumidouros identificadas entre camadas, aproveitando a consistência intercamadas observada. Resultados experimentais mostram que nosso método oferece uma aceleração sem perdas superior a 29 vezes sob um comprimento de contexto de 32K. O código está publicamente disponível em: https://github.com/Longxmas/Focus-dLLM
English
Diffusion Large Language Models (dLLMs) deliver strong long-context processing capability in a non-autoregressive decoding paradigm. However, the considerable computational cost of bidirectional full attention limits the inference efficiency. Although sparse attention is promising, existing methods remain ineffective. This stems from the need to estimate attention importance for tokens yet to be decoded, while the unmasked token positions are unknown during diffusion. In this paper, we present Focus-dLLM, a novel training-free attention sparsification framework tailored for accurate and efficient long-context dLLM inference. Based on the finding that token confidence strongly correlates across adjacent steps, we first design a past confidence-guided indicator to predict unmasked regions. Built upon this, we propose a sink-aware pruning strategy to accurately estimate and remove redundant attention computation, while preserving highly influential attention sinks. To further reduce overhead, this strategy reuses identified sink locations across layers, leveraging the observed cross-layer consistency. Experimental results show that our method offers more than 29times lossless speedup under 32K context length. The code is publicly available at: https://github.com/Longxmas/Focus-dLLM
PDF03February 7, 2026