ChatPaper.aiChatPaper

Focus-dLLM: Versnelling van Lange-Context Diffusie-LLM-inferentie via Vertrouwensgeleide Contextfocus

Focus-dLLM: Accelerating Long-Context Diffusion LLM Inference via Confidence-Guided Context Focusing

February 2, 2026
Auteurs: Lingkun Long, Yushi Huang, Shihao Bai, Ruihao Gong, Jun Zhang, Ao Zhou, Jianlei Yang
cs.AI

Samenvatting

Diffusion Large Language Models (dLLM's) bieden sterke verwerkingscapaciteit voor lange contexten binnen een niet-autoregressief decodeerparadigma. De aanzienlijke rekenkosten van bidirectionele volledige aandacht (attention) beperken echter de inferentie-efficiëntie. Hoewel sparse attention veelbelovend is, blijven bestaande methoden ondoeltreffend. Dit komt voort uit de noodzaak om het belang van aandacht voor nog te decoderen tokens in te schatten, terwijl de ongemaskeerde tokenposities tijdens de diffusie onbekend zijn. In dit artikel presenteren we Focus-dLLM, een nieuw trainingsvrij raamwerk voor het verspreiden van aandacht, toegesneden op accurate en efficiënte inferentie van dLLM's met lange context. Gebaseerd op de bevinding dat tokenbetrouwbaarheid sterk gecorreleerd is over aangrenzende stappen, ontwerpen we eerst een indicator, geleid door eerdere betrouwbaarheid, om ongemaskeerde regio's te voorspellen. Hierop voortbouwend stellen we een sink-aware pruning-strategie voor om redundante aandachtberekening nauwkeurig in te schatten en te verwijderen, terwijl zeer invloedrijke aandacht-sinks behouden blijven. Om de overhead verder te verminderen, hergebruikt deze strategie geïdentificeerde sink-locaties over lagen heen, waarbij gebruik wordt gemaakt van de waargenomen consistentie tussen lagen. Experimentele resultaten tonen aan dat onze methode een meer dan 29-voudige verliesvrije versnelling biedt bij een contextlengte van 32K. De code is openbaar beschikbaar op: https://github.com/Longxmas/Focus-dLLM
English
Diffusion Large Language Models (dLLMs) deliver strong long-context processing capability in a non-autoregressive decoding paradigm. However, the considerable computational cost of bidirectional full attention limits the inference efficiency. Although sparse attention is promising, existing methods remain ineffective. This stems from the need to estimate attention importance for tokens yet to be decoded, while the unmasked token positions are unknown during diffusion. In this paper, we present Focus-dLLM, a novel training-free attention sparsification framework tailored for accurate and efficient long-context dLLM inference. Based on the finding that token confidence strongly correlates across adjacent steps, we first design a past confidence-guided indicator to predict unmasked regions. Built upon this, we propose a sink-aware pruning strategy to accurately estimate and remove redundant attention computation, while preserving highly influential attention sinks. To further reduce overhead, this strategy reuses identified sink locations across layers, leveraging the observed cross-layer consistency. Experimental results show that our method offers more than 29times lossless speedup under 32K context length. The code is publicly available at: https://github.com/Longxmas/Focus-dLLM
PDF03February 7, 2026