ChatPaper.aiChatPaper

Focus-dLLM: Beschleunigung der Inferenz von Diffusions-LLMs mit langem Kontext durch konfidenzgeführtes Kontext-Fokussieren

Focus-dLLM: Accelerating Long-Context Diffusion LLM Inference via Confidence-Guided Context Focusing

February 2, 2026
papers.authors: Lingkun Long, Yushi Huang, Shihao Bai, Ruihao Gong, Jun Zhang, Ao Zhou, Jianlei Yang
cs.AI

papers.abstract

Diffusion Large Language Models (dLLMs) bieten eine hohe Verarbeitungsfähigkeit für lange Kontexte in einem nicht-autoregressiven Decodierparadigma. Die erheblichen Berechnungskosten der bidirektionalen Voll-Aufmerksamkeit schränken jedoch die Inferenzeffizienz ein. Obwohl sparse Aufmerksamkeit vielversprechend ist, bleiben bestehende Methoden ineffektiv. Dies liegt an der Notwendigkeit, die Aufmerksamkeitsbedeutung für noch zu decodierende Tokens abzuschätzen, während die nicht maskierten Token-Positionen während der Diffusion unbekannt sind. In diesem Artikel stellen wir Focus-dLLM vor, ein neuartiges, trainingsfreies Framework zur Aufmerksamkeits-Sparsifizierung, das für eine präzise und effiziente Inferenz von dLLMs mit langem Kontext entwickelt wurde. Aufbauend auf der Erkenntnis, dass die Token-Konfidenz über benachbarte Schritte stark korreliert, entwerfen wir zunächst einen vergangenheitsgesteuerten Indikator zur Vorhersage nicht maskierter Regionen. Darauf aufbauend schlagen wir eine senkenbewusste Reduktionsstrategie vor, um redundante Aufmerksamkeitsberechnungen genau abzuschätzen und zu entfernen, während einflussreiche Aufmerksamkeitssenken erhalten bleiben. Um den Overhead weiter zu reduzieren, werden identifizierte Senkenpositionen über Schichten hinweg wiederverwendet, was die beobachtete schichtenübergreifende Konsistenz nutzt. Experimentelle Ergebnisse zeigen, dass unsere Methode bei einer Kontextlänge von 32K einen mehr als 29-fachen verlustfreien Geschwindigkeitszuwachs bietet. Der Code ist öffentlich verfügbar unter: https://github.com/Longxmas/Focus-dLLM
English
Diffusion Large Language Models (dLLMs) deliver strong long-context processing capability in a non-autoregressive decoding paradigm. However, the considerable computational cost of bidirectional full attention limits the inference efficiency. Although sparse attention is promising, existing methods remain ineffective. This stems from the need to estimate attention importance for tokens yet to be decoded, while the unmasked token positions are unknown during diffusion. In this paper, we present Focus-dLLM, a novel training-free attention sparsification framework tailored for accurate and efficient long-context dLLM inference. Based on the finding that token confidence strongly correlates across adjacent steps, we first design a past confidence-guided indicator to predict unmasked regions. Built upon this, we propose a sink-aware pruning strategy to accurately estimate and remove redundant attention computation, while preserving highly influential attention sinks. To further reduce overhead, this strategy reuses identified sink locations across layers, leveraging the observed cross-layer consistency. Experimental results show that our method offers more than 29times lossless speedup under 32K context length. The code is publicly available at: https://github.com/Longxmas/Focus-dLLM
PDF03February 7, 2026