ChatPaper.aiChatPaper

Focus-dLLM : Accélération de l'inférence des LLM de diffusion à contexte long via une focalisation contextuelle guidée par la confiance

Focus-dLLM: Accelerating Long-Context Diffusion LLM Inference via Confidence-Guided Context Focusing

February 2, 2026
papers.authors: Lingkun Long, Yushi Huang, Shihao Bai, Ruihao Gong, Jun Zhang, Ao Zhou, Jianlei Yang
cs.AI

papers.abstract

Les modèles de langage à grande échelle par diffusion (dLLM) offrent une forte capacité de traitement de contextes longs dans un paradigme de décodage non autorégressif. Cependant, le coût computationnel considérable de l'attention bidirectionnelle complète limite l'efficacité de l'inférence. Bien que l'attention parcimonieuse soit prometteuse, les méthodes existantes restent peu efficaces. Cela découle de la nécessité d'estimer l'importance attentionnelle pour les tokens non encore décodés, alors que les positions des tokens non masqués sont inconnues pendant la diffusion. Dans cet article, nous présentons Focus-dLLM, un nouveau cadre de parcimonie attentionnelle sans apprentissage spécifiquement conçu pour une inférence dLLM précise et efficace sur des contextes longs. En nous appuyant sur le constat que la confiance des tokens est fortement corrélée entre les étapes adjacentes, nous concevons d'abord un indicateur guidé par la confiance passée pour prédire les régions non masquées. Sur cette base, nous proposons une stratégie d'élagage sensible aux puits attentionnels pour estimer et supprimer précisément le calcul attentionnel redondant, tout en préservant les puits attentionnels très influents. Pour réduire davantage la surcharge, cette stratégie réutilise les emplacements des puits identifiés à travers les couches, en tirant parti de la cohérence inter-couches observée. Les résultats expérimentaux montrent que notre méthode offre une accélération sans perte de plus de 29 fois sous une longueur de contexte de 32K. Le code est disponible publiquement à l'adresse : https://github.com/Longxmas/Focus-dLLM
English
Diffusion Large Language Models (dLLMs) deliver strong long-context processing capability in a non-autoregressive decoding paradigm. However, the considerable computational cost of bidirectional full attention limits the inference efficiency. Although sparse attention is promising, existing methods remain ineffective. This stems from the need to estimate attention importance for tokens yet to be decoded, while the unmasked token positions are unknown during diffusion. In this paper, we present Focus-dLLM, a novel training-free attention sparsification framework tailored for accurate and efficient long-context dLLM inference. Based on the finding that token confidence strongly correlates across adjacent steps, we first design a past confidence-guided indicator to predict unmasked regions. Built upon this, we propose a sink-aware pruning strategy to accurately estimate and remove redundant attention computation, while preserving highly influential attention sinks. To further reduce overhead, this strategy reuses identified sink locations across layers, leveraging the observed cross-layer consistency. Experimental results show that our method offers more than 29times lossless speedup under 32K context length. The code is publicly available at: https://github.com/Longxmas/Focus-dLLM
PDF03February 7, 2026