Élagage conscient de l'effondrement pour les modèles de langage par diffusion

Résumé

Les modèles de langage par diffusion (DLM) entraînent un coût d'inférence élevé en raison du débruîtage itératif, ce qui motive l'élagage efficace. Les heuristiques d'élagage existantes, largement héritées des grands modèles de langage (LLM) autorégressifs (AR), préservent généralement les tokens "puits d'attention" car les puits AR servent d'ancres globales stables. Nous montrons que cette hypothèse ne tient pas pour les DLM : la position du puits d'attention présente une variance substantiellement plus élevée sur l'ensemble de la trajectoire de génération (mesurée par la façon dont les emplacements dominants des puits se déplacent au fil des pas de temps), indiquant que les puits sont souvent transitoires et moins structurellement essentiels que dans les modèles AR. Sur la base de cette observation, nous proposons l'**Élagage Conscient des Puits**, qui identifie et élague automatiquement les puits instables dans les DLM (les études antérieures conservent généralement les puits pour les LLM AR). Sans réentraînement, notre méthode atteint un meilleur compromis qualité-efficacité et surpasse les solides bases d'élagage antérieures pour une puissance de calcul équivalente. Notre code est disponible à l'adresse https://github.com/VILA-Lab/Sink-Aware-Pruning.

English

Diffusion Language Models (DLMs) incur high inference cost due to iterative denoising, motivating efficient pruning. Existing pruning heuristics largely inherited from autoregressive (AR) LLMs, typically preserve attention sink tokens because AR sinks serve as stable global anchors. We show that this assumption does not hold for DLMs: the attention-sink position exhibits substantially higher variance over the full generation trajectory (measured by how the dominant sink locations shift across timesteps), indicating that sinks are often transient and less structurally essential than in AR models. Based on this observation, we propose {bf Sink-Aware Pruning}, which automatically identifies and prunes unstable sinks in DLMs (prior studies usually keep sinks for AR LLMs). Without retraining, our method achieves a better quality-efficiency trade-off and outperforms strong prior pruning baselines under matched compute. Our code is available at https://github.com/VILA-Lab/Sink-Aware-Pruning.

Élagage conscient de l'effondrement pour les modèles de langage par diffusion

Sink-Aware Pruning for Diffusion Language Models

Résumé

Support