Focus-dLLM: Accelerare l'Inferenza di Diffusion LLM a Contesto Lungo tramite Focusing Contestuale Guidato dalla Confidenza

Abstract

I modelli linguistici di grandi dimensioni basati su diffusione (dLLM) offrono una forte capacità di elaborazione di contesti lunghi in un paradigma di decodifica non autoregressivo. Tuttavia, il considerevole costo computazionale dell'attenzione bidirezionale completa ne limita l'efficienza inferenziale. Sebbene l'attenzione sparsa sia promettente, i metodi esistenti rimangono inefficaci. Ciò deriva dalla necessità di stimare l'importanza dell'attenzione per i token ancora da decodificare, mentre le posizioni dei token non mascherati sono sconosciute durante il processo di diffusione. In questo articolo, presentiamo Focus-dLLM, un nuovo framework di sparsificazione dell'attenzione, senza necessità di addestramento, progettato per inferenze dLLM accurate ed efficienti su contesti lunghi. Basandoci sul ritrovamento che la confidenza dei token è fortemente correlata tra passi adiacenti, progettiamo prima un indicatore guidato dalla confidenza passata per prevedere le regioni non mascherate. Su questa base, proponiamo una strategia di pruning consapevole dei sink per stimare accuratamente e rimuovere il calcolo ridondante dell'attenzione, preservando al contempo i sink di attenzione altamente influenti. Per ridurre ulteriormente il sovraccarico, questa strategia riutilizza le posizioni identificate dei sink attraverso i layer, sfruttando l'osservata consistenza trans-layer. I risultati sperimentali mostrano che il nostro metodo offre un accelerazione senza perdite superiore a 29 volte con una lunghezza di contesto di 32K. Il codice è pubblicamente disponibile all'indirizzo: https://github.com/Longxmas/Focus-dLLM

English

Diffusion Large Language Models (dLLMs) deliver strong long-context processing capability in a non-autoregressive decoding paradigm. However, the considerable computational cost of bidirectional full attention limits the inference efficiency. Although sparse attention is promising, existing methods remain ineffective. This stems from the need to estimate attention importance for tokens yet to be decoded, while the unmasked token positions are unknown during diffusion. In this paper, we present Focus-dLLM, a novel training-free attention sparsification framework tailored for accurate and efficient long-context dLLM inference. Based on the finding that token confidence strongly correlates across adjacent steps, we first design a past confidence-guided indicator to predict unmasked regions. Built upon this, we propose a sink-aware pruning strategy to accurately estimate and remove redundant attention computation, while preserving highly influential attention sinks. To further reduce overhead, this strategy reuses identified sink locations across layers, leveraging the observed cross-layer consistency. Experimental results show that our method offers more than 29times lossless speedup under 32K context length. The code is publicly available at: https://github.com/Longxmas/Focus-dLLM

Focus-dLLM: Accelerare l'Inferenza di Diffusion LLM a Contesto Lungo tramite Focusing Contestuale Guidato dalla Confidenza

Focus-dLLM: Accelerating Long-Context Diffusion LLM Inference via Confidence-Guided Context Focusing

Abstract

Support