Potatura Consapevole dello Sinking per Modelli Linguistici di Diffusione

Abstract

I modelli linguistici di diffusione (DLM) comportano un elevato costo inferenziale a causa del processo iterativo di denoising, il che motiva la ricerca di tecniche efficienti di pruning. Le euristiche di pruning esistenti, ereditate in larga misura dai modelli linguistici autoregressivi (AR), preservano tipicamente i token "attention sink" poiché negli AR questi sink fungono da ancore globali stabili. Dimostriamo che questo assunto non è valido per i DLM: la posizione del sink dell'attenzione presenta una varianza sostanzialmente più elevata lungo l'intera traiettoria di generazione (misurata in base a come le posizioni dominanti dei sink cambiano attraverso i timestep), indicando che i sink sono spesso transitori e strutturalmente meno essenziali rispetto ai modelli AR. Sulla base di questa osservazione, proponiamo il **Pruning Consapevole dei Sink**, che identifica automaticamente e elimina i sink instabili nei DLM (mentre studi precedenti tendono a preservarli per i LLM AR). Senza riaddestramento, il nostro metodo raggiunge un miglior compromesso qualità-efficienza e supera solidi baseline di pruning precedenti a parità di risorse computazionali. Il nostro codice è disponibile all'indirizzo https://github.com/VILA-Lab/Sink-Aware-Pruning.

English

Diffusion Language Models (DLMs) incur high inference cost due to iterative denoising, motivating efficient pruning. Existing pruning heuristics largely inherited from autoregressive (AR) LLMs, typically preserve attention sink tokens because AR sinks serve as stable global anchors. We show that this assumption does not hold for DLMs: the attention-sink position exhibits substantially higher variance over the full generation trajectory (measured by how the dominant sink locations shift across timesteps), indicating that sinks are often transient and less structurally essential than in AR models. Based on this observation, we propose {bf Sink-Aware Pruning}, which automatically identifies and prunes unstable sinks in DLMs (prior studies usually keep sinks for AR LLMs). Without retraining, our method achieves a better quality-efficiency trade-off and outperforms strong prior pruning baselines under matched compute. Our code is available at https://github.com/VILA-Lab/Sink-Aware-Pruning.

Potatura Consapevole dello Sinking per Modelli Linguistici di Diffusione

Sink-Aware Pruning for Diffusion Language Models

Abstract

Support