Sink-Bewust Snoeien voor Diffusie Taalmodellen
Sink-Aware Pruning for Diffusion Language Models
February 19, 2026
Auteurs: Aidar Myrzakhan, Tianyi Li, Bowei Guo, Shengkun Tang, Zhiqiang Shen
cs.AI
Samenvatting
Diffusion Language Models (DLM's) veroorzaken hoge inferentiekosten door iteratieve ruisverwijdering, wat de motivatie vormt voor efficiënte pruning. Bestaande pruningheuristieken, grotendeels overgenomen van autoregressieve (AR) LLM's, behouden typisch aandachtssink-tokens omdat AR-sinks fungeren als stabiele globale ankers. Wij tonen aan dat deze aanname niet opgaat voor DLM's: de positie van de aandachtssink vertoont aanzienlijk hogere variantie over het volledige generatietraject (gemeten aan de hand van hoe de dominante sinklocaties verschuiven tussen tijdstappen), wat aangeeft dat sinks vaak tijdelijk en minder structureel essentieel zijn dan in AR-modellen. Gebaseerd op deze observatie stellen wij **Sink-Aware Pruning** voor, dat automatisch onstabiele sinks in DLM's identificeert en wegprunt (eerdere studies behouden sinks meestal voor AR LLM's). Zonder hertraining bereikt onze methode een betere kwaliteit-efficiëntie-afweging en presteert beter dan sterke eerdere pruning-baselines bij gelijke rekenkracht. Onze code is beschikbaar op https://github.com/VILA-Lab/Sink-Aware-Pruning.
English
Diffusion Language Models (DLMs) incur high inference cost due to iterative denoising, motivating efficient pruning. Existing pruning heuristics largely inherited from autoregressive (AR) LLMs, typically preserve attention sink tokens because AR sinks serve as stable global anchors. We show that this assumption does not hold for DLMs: the attention-sink position exhibits substantially higher variance over the full generation trajectory (measured by how the dominant sink locations shift across timesteps), indicating that sinks are often transient and less structurally essential than in AR models. Based on this observation, we propose {bf Sink-Aware Pruning}, which automatically identifies and prunes unstable sinks in DLMs (prior studies usually keep sinks for AR LLMs). Without retraining, our method achieves a better quality-efficiency trade-off and outperforms strong prior pruning baselines under matched compute. Our code is available at https://github.com/VILA-Lab/Sink-Aware-Pruning.