Tourner la TIDE : Distillation inter-architecture pour les modèles de langage de grande taille à diffusion

Résumé

Les modèles de langage à diffusion (dLLM) offrent un décodage parallèle et un contexte bidirectionnel, mais les dLLM de pointe nécessitent des milliards de paramètres pour des performances compétitives. Si les méthodes de distillation existantes pour les dLLM réduisent les étapes d'inférence au sein d'une même architecture, aucune ne traite du transfert de connaissances inter-architectures, où l'enseignant et l'élève diffèrent par leur architecture, leur mécanisme d'attention et leur tokeniseur. Nous présentons TIDE, le premier cadre de distillation inter-architectures pour dLLM, comprenant trois composants modulaires : (1) TIDAL, qui module conjointement l'intensité de la distillation selon la progression de l'entraînement et l'étape de diffusion pour tenir compte de la fiabilité dépendante du bruit de l'enseignant ; (2) CompDemo, qui enrichit le contexte de l'enseignant via un fractionnement par masques complémentaires pour améliorer les prédictions sous fort masquage ; et (3) Reverse CALM, un objectif inter-tokeniseurs qui inverse l'appariement de vraisemblance au niveau des segments, produisant des gradients bornés et un filtrage du bruit double extrémité. La distillation d'enseignants denses 8B et MoE 16B vers un étudiant 0.6B via deux pipelines hétérogènes surpasse la baseline de 1,53 point en moyenne sur huit benchmarks, avec des gains notables en génération de code, où les scores HumanEval atteignent 48,78 contre 32,3 pour la baseline AR.

English

Diffusion large language models (dLLMs) offer parallel decoding and bidirectional context, but state-of-the-art dLLMs require billions of parameters for competitive performance. While existing distillation methods for dLLMs reduce inference steps within a single architecture, none address cross-architecture knowledge transfer, in which the teacher and student differ in architecture, attention mechanism, and tokenizer. We present TIDE, the first framework for cross-architecture dLLM distillation, comprising three modular components: (1) TIDAL, which jointly modulates distillation strength across training progress and diffusion timestep to account for the teacher's noise-dependent reliability; (2) CompDemo, which enriches the teacher's context via complementary mask splitting to improve predictions under heavy masking; and (3) Reverse CALM, a cross-tokenizer objective that inverts chunk-level likelihood matching, yielding bounded gradients and dual-end noise filtering. Distilling 8B dense and 16B MoE teachers into a 0.6B student via two heterogeneous pipelines outperforms the baseline by an average of 1.53 points across eight benchmarks, yielding notable gains in code generation, where HumanEval scores reach 48.78 compared to 32.3 for the AR baseline.

Tourner la TIDE : Distillation inter-architecture pour les modèles de langage de grande taille à diffusion

Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

Résumé

Support