ChatPaper.aiChatPaper

Focus-dLLM: Aceleración de la Inferencia en LLM de Difusión de Contexto Largo mediante Enfoque de Contexto Guiado por Confianza

Focus-dLLM: Accelerating Long-Context Diffusion LLM Inference via Confidence-Guided Context Focusing

February 2, 2026
Autores: Lingkun Long, Yushi Huang, Shihao Bai, Ruihao Gong, Jun Zhang, Ao Zhou, Jianlei Yang
cs.AI

Resumen

Los Modelos de Lenguaje Grandes de Difusión (dLLMs) ofrecen una sólida capacidad de procesamiento de contextos largos en un paradigma de decodificación no autoregresivo. Sin embargo, el considerable coste computacional de la atención bidireccional completa limita la eficiencia de la inferencia. Aunque la atención dispersa es prometedora, los métodos existentes siguen siendo ineficaces. Esto se debe a la necesidad de estimar la importancia de la atención para los tokens aún no decodificados, mientras que las posiciones de los tokens no enmascarados son desconocidas durante la difusión. En este artículo, presentamos Focus-dLLM, un novedoso marco de esparcificación de atención sin entrenamiento, diseñado para una inferencia precisa y eficiente de dLLMs de contexto largo. Basándonos en el hallazgo de que la confianza de los tokens está fuertemente correlacionada entre pasos adyacentes, primero diseñamos un indicador guiado por la confianza pasada para predecir las regiones no enmascaradas. Sobre esta base, proponemos una estrategia de poda consciente de sumideros para estimar y eliminar con precisión el cómputo de atención redundante, preservando al mismo tiempo los sumideros de atención altamente influyentes. Para reducir aún más la sobrecarga, esta estrategia reutiliza las ubicaciones de los sumideros identificados a través de las capas, aprovechando la consistencia intercapas observada. Los resultados experimentales muestran que nuestro método ofrece una aceleración sin pérdidas de más de 29 veces bajo una longitud de contexto de 32K. El código está disponible públicamente en: https://github.com/Longxmas/Focus-dLLM
English
Diffusion Large Language Models (dLLMs) deliver strong long-context processing capability in a non-autoregressive decoding paradigm. However, the considerable computational cost of bidirectional full attention limits the inference efficiency. Although sparse attention is promising, existing methods remain ineffective. This stems from the need to estimate attention importance for tokens yet to be decoded, while the unmasked token positions are unknown during diffusion. In this paper, we present Focus-dLLM, a novel training-free attention sparsification framework tailored for accurate and efficient long-context dLLM inference. Based on the finding that token confidence strongly correlates across adjacent steps, we first design a past confidence-guided indicator to predict unmasked regions. Built upon this, we propose a sink-aware pruning strategy to accurately estimate and remove redundant attention computation, while preserving highly influential attention sinks. To further reduce overhead, this strategy reuses identified sink locations across layers, leveraging the observed cross-layer consistency. Experimental results show that our method offers more than 29times lossless speedup under 32K context length. The code is publicly available at: https://github.com/Longxmas/Focus-dLLM
PDF03February 7, 2026